2024 年 8 月 – 戴传庆

这周和朋友讨论视频模型，记录一些个人的观点。

在可灵出现之前，主要是Runway和Pika等产品。Runway的动作幅度控制高度依赖于手动操作，如手动区域涂抹和设置动作幅度及运镜参数。虽然这种方式提供了高度的自定义，但对用户的创作技能要求较高，且容易出现动作幅度崩坏的情况。其次，Pika在参数配置上颗粒度过大，图转视频时图像清晰度严重压缩，文生视频在画面绘制的准确性和连贯性方面难以达到可用性要求。

可灵通过大量视频数据的训练，在不依赖“抽卡”的情况下，显著提高了动作控制的可用性，尤其是在物理运动的可用性方面，崩坏现象远低于竞争对手。
然而，模型竞争非常激烈，任何领先优势都是暂时的。真正的创作者还未大规模进入AI领域，要成为广告或影视行业的必备生产工具，还有很长的路要走。

我对视频模型的等级划分主要基于技术、交互和视觉三个层面：

60分：技术层面基本可用。达到1080P清晰度，3～5秒的片段能够保持连贯性，物理运动符合现实世界，画面及元素准确绘制，具备基础的运镜控制。
70分：画面细节具备更强的可控性。分镜时长延长后效果依然稳定，动作幅度可控，支持自定义画面元素的运动轨迹，具备较大范围的镜头扫动能力，支持角色五官等细颗粒度的绘制。
80分：具备更高的动作及美学要求。能够生成4K超清画面，镜头角度可随意控制，支持视频元素的删减和替换，多人场景的绘制准确，并实现基础的互动，能够表现科幻等艺术风格。
90分：美学及可控性达到电影级标准。 8K最高画质，多人复杂动作控制，对角色表情实现精准控制，具备动态光影效果和可控的色彩表达，能够准确表现国风等文化符号丰富的艺术风格。

预计今年底，模型效果可以接近65分。然而，未来的提升将面临更大的挑战，不仅需要在技术上取得突破，还需要投入更多资源来标记数据，并提升美学要求的颗粒度，以实现更精细的控制。

今天下午，朋友找我咨询如何接入模型，顺便聊了过去三个月Pixfun.ai的创业经历。这段时间，调试和部署AI模型花费了大量时间，写Prompt，对比不同模型的效果等等。

这时，我看到了SiliconCloud的介绍，作为做AI视频的创业者，对于这样的是有强需求的，包括白嫖一些算力。

Pixfun遇到的难题

模型集成复杂。我们的AI视频应用需要用到各种语言模型、文本生成图像模型（比如DALL·E）和图像转视频模型。调试这些模型真是耗时耗力。切换模型调试成本很高，当发现成本更低且效果更好的模型，需要重新调整策略来适配。
多模型风格测试。要找到合适的风格，我们需要在多个模型上反复测试同一个任务。这意味着我们得在不同平台和工具之间来回切换，不仅增加了工作量，还容易出错。所以，我们需要一个能高效整合和管理这些模型的平台。
生成速度调试。生成速度也是关键因素。在视频生成过程中，任何延迟都会影响用户体验。我们需要高性能计算平台来加速这一过程，提高整体效率。
成本控制。在创业初期，控制成本很重要。不同模型的使用费用差别很大。既能提供高效的计算资源，又能帮助我们优化成本。最理想的是，这个平台能根据我们的需求动态调整资源分配，避免不必要的开支。
新模型评测。AI领域发展快，新模型不断涌现。我们需要及时评测这些新模型的优缺点，找出效果更好、成本更低的解决方案。但这样的评测过程需要大量计算资源和时间，这也是我们面临的挑战之一。自媒体和模型官方有吹嘘成本，每次需要根据自身需求实际评测，才会真切体会各个模型的优缺点。

SiliconCloud带来的便利

SiliconCloud提供高性能计算资源和大数据处理能力，支持多种AI模型的调试和集成。这样，我们可以在一个平台上完成多模型的风格测试、生成速度调试和成本优化。更棒的是，SiliconCloud还能根据我们的需求动态分配资源，确保计算资源的高效利用。

如何提供更好的服务

除了关注技术层面的需求，个人觉得，SiliconCloud还可以通过以下方式提供更好的服务：

模型效果对比： SiliconCloud可以提供对各种语言模型和图片模型的官方对比，帮助用户了解不同模型的效果优劣。比如，用户评测语言模型会输入一系列问题，来对比效果推理等能力，SiliconCloud可以把这些问题内置，一键测评，新的模型出来之后可以立马对比出效果。或者用户输入Prompt之后，N个模型同时给出生成结果。用户不再需要挨个手动输入prompt评测。
效果预览。当前图片模型的Prompt案例不太行，可以借鉴Midjourney官网上的优质Prompt，提供更具参考价值的案例。

知名产品模型选择：展示知名产品选择了哪些模型，创业者可能不愿意公开具体使用了哪些模型，但可以显示每个模型的被调用次数。这样创作者可以根据调用次数来判断模型的受欢迎程度和效果。模型实在太多了，需要一个模型界的「大众点评」。
免费服务导航：面向创业者，收集一些免费的服务，如文本到语音（TTS）等，成为AI创业者挑选服务的导航站。这样可以帮助创业者更方便地找到合适的工具和资源。

月度归档： 2024 年 8 月

对于当前视频模型的看法

SiliconCloud初体验

Pixfun遇到的难题

SiliconCloud带来的便利

如何提供更好的服务