对于当前视频模型的看法

这周和朋友讨论视频模型,记录一些个人的观点。

在可灵出现之前,主要是Runway和Pika等产品。Runway的动作幅度控制高度依赖于手动操作,如手动区域涂抹和设置动作幅度及运镜参数。虽然这种方式提供了高度的自定义,但对用户的创作技能要求较高,且容易出现动作幅度崩坏的情况。其次,Pika在参数配置上颗粒度过大,图转视频时图像清晰度严重压缩,文生视频在画面绘制的准确性和连贯性方面难以达到可用性要求。

可灵通过大量视频数据的训练,在不依赖“抽卡”的情况下,显著提高了动作控制的可用性,尤其是在物理运动的可用性方面,崩坏现象远低于竞争对手。
然而,模型竞争非常激烈,任何领先优势都是暂时的。真正的创作者还未大规模进入AI领域,要成为广告或影视行业的必备生产工具,还有很长的路要走。

我对视频模型的等级划分主要基于技术、交互和视觉三个层面:

  • 60分:技术层面基本可用。达到1080P清晰度,3~5秒的片段能够保持连贯性,物理运动符合现实世界,画面及元素准确绘制,具备基础的运镜控制。
  • 70分:画面细节具备更强的可控性。分镜时长延长后效果依然稳定,动作幅度可控,支持自定义画面元素的运动轨迹,具备较大范围的镜头扫动能力,支持角色五官等细颗粒度的绘制。
  • 80分:具备更高的动作及美学要求。能够生成4K超清画面,镜头角度可随意控制,支持视频元素的删减和替换,多人场景的绘制准确,并实现基础的互动,能够表现科幻等艺术风格。
  • 90分:美学及可控性达到电影级标准。 8K最高画质,多人复杂动作控制,对角色表情实现精准控制,具备动态光影效果和可控的色彩表达,能够准确表现国风等文化符号丰富的艺术风格。

预计今年底,模型效果可以接近65分。然而,未来的提升将面临更大的挑战,不仅需要在技术上取得突破,还需要投入更多资源来标记数据,并提升美学要求的颗粒度,以实现更精细的控制。

SiliconCloud初体验

今天下午,朋友找我咨询如何接入模型,顺便聊了过去三个月Pixfun.ai的创业经历。这段时间,调试和部署AI模型花费了大量时间,写Prompt,对比不同模型的效果等等。

这时,我看到了SiliconCloud的介绍,作为做AI视频的创业者,对于这样的是有强需求的,包括白嫖一些算力。

Pixfun遇到的难题

  • 模型集成复杂。我们的AI视频应用需要用到各种语言模型、文本生成图像模型(比如DALL·E)和图像转视频模型。调试这些模型真是耗时耗力。切换模型调试成本很高,当发现成本更低且效果更好的模型,需要重新调整策略来适配。
  • 多模型风格测试。要找到合适的风格,我们需要在多个模型上反复测试同一个任务。这意味着我们得在不同平台和工具之间来回切换,不仅增加了工作量,还容易出错。所以,我们需要一个能高效整合和管理这些模型的平台。
  • 生成速度调试。生成速度也是关键因素。在视频生成过程中,任何延迟都会影响用户体验。我们需要高性能计算平台来加速这一过程,提高整体效率。
  • 成本控制。在创业初期,控制成本很重要。不同模型的使用费用差别很大。既能提供高效的计算资源,又能帮助我们优化成本。最理想的是,这个平台能根据我们的需求动态调整资源分配,避免不必要的开支。
  • 新模型评测。AI领域发展快,新模型不断涌现。我们需要及时评测这些新模型的优缺点,找出效果更好、成本更低的解决方案。但这样的评测过程需要大量计算资源和时间,这也是我们面临的挑战之一。自媒体和模型官方有吹嘘成本,每次需要根据自身需求实际评测,才会真切体会各个模型的优缺点。

SiliconCloud带来的便利

SiliconCloud提供高性能计算资源和大数据处理能力,支持多种AI模型的调试和集成。这样,我们可以在一个平台上完成多模型的风格测试、生成速度调试和成本优化。更棒的是,SiliconCloud还能根据我们的需求动态分配资源,确保计算资源的高效利用。

如何提供更好的服务

除了关注技术层面的需求,个人觉得,SiliconCloud还可以通过以下方式提供更好的服务:

  • 模型效果对比: SiliconCloud可以提供对各种语言模型和图片模型的官方对比,帮助用户了解不同模型的效果优劣。比如,用户评测语言模型会输入一系列问题,来对比效果推理等能力,SiliconCloud可以把这些问题内置,一键测评,新的模型出来之后可以立马对比出效果。或者用户输入Prompt之后,N个模型同时给出生成结果。用户不再需要挨个手动输入prompt评测。
  • 效果预览。当前图片模型的Prompt案例不太行,可以借鉴Midjourney官网上的优质Prompt,提供更具参考价值的案例。
SiliconCloud截图
使用SiliconCloud测试FLUX.1
  • 知名产品模型选择: 展示知名产品选择了哪些模型,创业者可能不愿意公开具体使用了哪些模型,但可以显示每个模型的被调用次数。这样创作者可以根据调用次数来判断模型的受欢迎程度和效果。模型实在太多了,需要一个模型界的「大众点评」。
  • 免费服务导航: 面向创业者,收集一些免费的服务,如文本到语音(TTS)等,成为AI创业者挑选服务的导航站。这样可以帮助创业者更方便地找到合适的工具和资源。