对话智谱CEO张鹏：现在谈视频生成的商业化，为时尚早-奇宝库

哥几个，国内的视频生成应用，又上新了。。

就在今天，大家可能还沉浸可灵无法自拔的时候，国内的智谱 AI 上线了一个叫清影的 AI 生成视频产品。

跟 Sora 类似的 DiT 架构，支持文生视频和图生视频，生成一个 6s 的视频大概需要 30s。别的不说，这生成速度放现在一众视频生成应用里，确实拿得出手。

看官方给的 demo，这清晰度，还有这水花和波纹，如果不仔细看可能真就让AI给忽悠过去了。

不过这个吗喽打工，就差点意思了。手指敲键盘部分还有背景基本上都是变形的，但这埋头苦干的样子还挺符合打工人的形象。

主要这玩意儿现在是免费的，上线之后世超第一时间就测评了一波。另外，我们也有幸跟智谱CEO张鹏聊了聊，谈了谈他对于视频生成应用和大模型的一些看法。

首先，咱还是先来看清影到底啥水平？

先是比较考验提示词能力的文生视频，按照镜头语言+主体细节+光影的公式，世超随意发挥了一把。

提示词：

电影风格，从侧面拍摄，镜头聚焦在面部，写实描绘，夜晚，一个长发女人坐在公交车靠窗的位置，眼睛望向窗外不断变化的街景，忽明忽暗的光线打在她的脸上，画面弥漫着孤独感

别的不说，清影的提示词中文友好，大概 20s 的时间就结束了，在生成时长上几乎可以完胜大部分现役视频生成应用。

效果上，面部光影在随着街景发生变换，还有过程中眨眼睛的细节，也很自然。特别是人物面部的一致性，6s 的视频，几乎没有看到有变形的地方。

除了窗外的街景要扣分以外，已经算得上是一个合格的 AI 视频作品了。

还有这头狮子。

提示词：

写实描绘，近景特写镜头，狮子盯着不远处的羚羊，身体微微起伏，伺机而动

风吹着旁边的狗尾巴草，身体上的起伏的确是有的，左上角已经出镜的动物，非要说是羚羊也能圆过去。只不过这狮子的状态不太像是要捕猎，更像午觉刚睡醒。

既然日常的场景还算得心应手，我们再换个天马行空的试试：一条在隧道中自主飞舞的反光织物。

隧道、反光织物、自主飞舞，包括隧道里的灯还有尽头应该有的光，提示词里的要点清影基本都 get 到了，而且生成的效果也十分丝滑，看上去真有点奇异博士悬浮斗篷的意思。

继续让 AI 发挥想象力，看看什么叫做 “ 五彩斑斓的黑 ”。

测试到这，清影文生视频在生成速度上没得说，对提示词的抓取也基本上没有出现遗漏，但生成效果包括很多细节仍然有处理得不到位的地方。

就比如视频中文字的生成不够准确，把 “ WEET ” 变成了一串乱码。

提示词：

The camera zooms in, and the background is pure yellow. An artistic billboard with the word "SWEET" written on it is wrapped in brown chocolate sauce, and the chocolate sauce slowly flows downwards.

理解不了物理世界规律的毛病，也是屡教不改。最经典的，篮球在这位老哥手上，基本就是隔空在闪，看不出有一点弹力，不是我说，当年的《篮球火》就应该让AI来拍。

提示词：

镜头不动，傍晚，一个男人在球场拍打着篮球

当然，这些也都是目前视频大模型的通病了，即便是 Sora 来，也难免会犯错。

另外，图生视频这边，我们同样简单测试了几个。

像幼苗向上生长，打眼一看还挺符合植物生长规律。

世超还请公司顶流火锅出来亮相了一波。前 3 秒的效果还凑合，就是这站起来之后，都快给咱锅哥整出影分身了。

火锅：溜了溜了

反正测试下来，世超对清影最大的感受，就是生成速度对得起官方的宣传。

至于生成效果，一些特定场景下确实让人眼前一亮，但依旧无法完全解决，诸如理解不了物理规律等业内视频大模型的通病。

智谱技术人员告诉我们，他们的技术路线其实是循序渐进的。大概意思是，从自然语言理解和生成指令遵循的抽象能力开始，再逐步将这种能力具体应用到图片、视频、声音等不同模态上。

只不过这条技术路线，同样也会受限于很多东西，比如算力，还有数据。

一个是相比于大语言模型的文本数据，视频需要的数据可能从这两三年才开始收集、做标注，能用的数据少之又少。

另外，视频数据的质量也不够高。

高质量的文本数据包括了文本的完整性、内容之间的逻辑性、用词的规范性还有内容的知识性等等。换到视频数据也一样，甚至视频数据里包含的细节要复杂得多，像什么视频内容的丰富性，是不是高清，运镜分镜又是怎么处理的。。。

简而言之，视频模型所需的数据数量少，获取成本也更高。

由于底层的算力、数据，导致的视频内容可控性、画面闪烁和帧率等等一系列技术问题，即使是智谱，也认为现在谈视频大模型的商业化，还为时尚早。

但话又说回来，今年视频生成应用的接连涌现，也说明了一个问题：视频生成的方向是可行的，现在大家劲儿往一处使，剩下只是时间问题。

而除了对视频生成应用的探讨以外，被称为大模型四小龙之一的智谱，不光是在视频生成上有所布局，如果熟悉国内 AI 圈的人可能听说过，智谱几乎是全线在对标 OpenAI。

我们这次也跟智谱 CEO 张鹏聊了聊，他对于大模型行业的一些见解。

可能大家也知道，今年上半年技术派的杨植麟和市场派的朱啸虎，针对大模型行业发表了不同的观点。杨植麟认为短期目标应该服务长期的 AGI 愿景，而朱啸虎则觉得目前 AI 行业的商业化和盈利更重要，这在当时还引发了不小的讨论。

还有前阵子，百度 CEO 李彦宏提出“开源大模型将越来越落后”的观点，也引发了热议。

针对这些热议话题，我们试着询问了CEO 张鹏的看法。

从人工智能这个学科产生到现在已经过去了将近七十年的时间，早期发展的速度可能会相对慢一些，最近几年突飞猛进，相信大家已经感受到了。

当然很多人也预测人工智能可能会就此缓下来，或者像技术成熟度曲线一样，到达一个顶峰之后进入破灭期。但我们切身在研究这项技术的人会发现，其实目前仍然有很多的问题值得去探索。

有一些趋势是很明确的，比如超级认知智能、超级对齐、原生多模态技术等等。它们的泛化能力、对世界的理解，包括物理规律的理解等都有望达到更高的层次。

另外，智谱也在进行一些前沿探索，包括基于超级认知和超级对齐技术，多模态混合训练的大模型；人类的“无意识”学习机制，这项技术名为 GLM-zero，研究将进一步拓展人类对意识、知识、学习行为的理解。

“ 我们的目标定在 AGI，这里面每一个问题的突破都有可能带来飞跃式的发展。”

看得出来，张鹏总虽然没有直接对争议发表观点，但 AGI 的目标，毋庸置疑。

另外，在百模、千模大战的背景下，大模型公司们究竟还应不应该一股脑地卷底层大模型？从智谱本身出发，张鹏总也发表了一些对于大模型同质化的观点。

对于 “ 百模大战 ”，在商业化方面，还是要打造分层生态圈，联手踏实落地，避免 “ 重复造轮子 ” 的内耗。

如今，中国大模型赛道正在从拥挤走向分层。大部分技术进步大抵如此：新技术产生，大家一拥而上；当技术发展到一定程度，自然而然地会分层——有些人解决底层的问题，有些人解决中间的问题，有些人解决上层的问题，相对稳固而不是混乱的生态，大家互相促进。

我们希望做的，就是用通用智能水平比较高的模型给大家赋能，智谱AI负责模型推理训练、算力、适配等高复杂事项，行业和企业端则可以无压力地部署应用，期待大模型的成果能够更广泛地应用于各个行业。

还有，就是所有大模型企业都无法绕过的一个问题，商业化。

短短两年的时间，大模型就已经走到了价格战的阶段，但大模型落地究竟该做 To C 还是 To B，现在是否是大模型落地的最好时机，很多问题都等待着大模型公司们来回答。

2024年大模型应用将进入落地期，一方面垂直领域大模型的商业化应用正在加速，另一方面多模态大模型涌现，应用场景也将更加丰富。

智谱希望做的，就是能用通用智能水平比较高的基座模型去赋能大家，让大家去做行业应用。我们做好 L0 的层面，赋能伙伴和客户做好 L1 和 L2。

真正能够提供商业化服务的公司还是比较少的。从一个模型概念到一个能运作的模型，再到一个能商业化的方案，中间每一步都是巨大的跨越。

最后，世超想借用采访中张鹏总的一句话来结束这篇文章：“ 至少我们现在还没有看到技术的天花板 ”。

人工智能技术的下一次飞跃，可能是在十年后，但也有可能就在明天。

相关文章