对于当前视频模型的看法

这周和朋友讨论视频模型，记录一些个人的观点。

在可灵出现之前，主要是Runway和Pika等产品。Runway的动作幅度控制高度依赖于手动操作，如手动区域涂抹和设置动作幅度及运镜参数。虽然这种方式提供了高度的自定义，但对用户的创作技能要求较高，且容易出现动作幅度崩坏的情况。其次，Pika在参数配置上颗粒度过大，图转视频时图像清晰度严重压缩，文生视频在画面绘制的准确性和连贯性方面难以达到可用性要求。

可灵通过大量视频数据的训练，在不依赖“抽卡”的情况下，显著提高了动作控制的可用性，尤其是在物理运动的可用性方面，崩坏现象远低于竞争对手。
然而，模型竞争非常激烈，任何领先优势都是暂时的。真正的创作者还未大规模进入AI领域，要成为广告或影视行业的必备生产工具，还有很长的路要走。

我对视频模型的等级划分主要基于技术、交互和视觉三个层面：

60分：技术层面基本可用。达到1080P清晰度，3～5秒的片段能够保持连贯性，物理运动符合现实世界，画面及元素准确绘制，具备基础的运镜控制。
70分：画面细节具备更强的可控性。分镜时长延长后效果依然稳定，动作幅度可控，支持自定义画面元素的运动轨迹，具备较大范围的镜头扫动能力，支持角色五官等细颗粒度的绘制。
80分：具备更高的动作及美学要求。能够生成4K超清画面，镜头角度可随意控制，支持视频元素的删减和替换，多人场景的绘制准确，并实现基础的互动，能够表现科幻等艺术风格。
90分：美学及可控性达到电影级标准。 8K最高画质，多人复杂动作控制，对角色表情实现精准控制，具备动态光影效果和可控的色彩表达，能够准确表现国风等文化符号丰富的艺术风格。

预计今年底，模型效果可以接近65分。然而，未来的提升将面临更大的挑战，不仅需要在技术上取得突破，还需要投入更多资源来标记数据，并提升美学要求的颗粒度，以实现更精细的控制。

对于当前视频模型的看法

发布者

晓生