这周和朋友讨论视频模型,记录一些个人的观点。
在可灵出现之前,主要是Runway和Pika等产品。Runway的动作幅度控制高度依赖于手动操作,如手动区域涂抹和设置动作幅度及运镜参数。虽然这种方式提供了高度的自定义,但对用户的创作技能要求较高,且容易出现动作幅度崩坏的情况。其次,Pika在参数配置上颗粒度过大,图转视频时图像清晰度严重压缩,文生视频在画面绘制的准确性和连贯性方面难以达到可用性要求。
可灵通过大量视频数据的训练,在不依赖“抽卡”的情况下,显著提高了动作控制的可用性,尤其是在物理运动的可用性方面,崩坏现象远低于竞争对手。
然而,模型竞争非常激烈,任何领先优势都是暂时的。真正的创作者还未大规模进入AI领域,要成为广告或影视行业的必备生产工具,还有很长的路要走。
我对视频模型的等级划分主要基于技术、交互和视觉三个层面:
- 60分:技术层面基本可用。达到1080P清晰度,3~5秒的片段能够保持连贯性,物理运动符合现实世界,画面及元素准确绘制,具备基础的运镜控制。
- 70分:画面细节具备更强的可控性。分镜时长延长后效果依然稳定,动作幅度可控,支持自定义画面元素的运动轨迹,具备较大范围的镜头扫动能力,支持角色五官等细颗粒度的绘制。
- 80分:具备更高的动作及美学要求。能够生成4K超清画面,镜头角度可随意控制,支持视频元素的删减和替换,多人场景的绘制准确,并实现基础的互动,能够表现科幻等艺术风格。
- 90分:美学及可控性达到电影级标准。 8K最高画质,多人复杂动作控制,对角色表情实现精准控制,具备动态光影效果和可控的色彩表达,能够准确表现国风等文化符号丰富的艺术风格。
预计今年底,模型效果可以接近65分。然而,未来的提升将面临更大的挑战,不仅需要在技术上取得突破,还需要投入更多资源来标记数据,并提升美学要求的颗粒度,以实现更精细的控制。