Sora开启AI投资新时代

Sora开启AI投资新时代0

编者按

红唇长发美女在东京街头漫步、猫咪犹疑不定尝试叫醒晨睡的主人、一位时尚青年在云端读书……这些看起来像大片一样的视频，是Sora的文生视频的片段。

自2月16日问世以来，关于Sora文生视频的话题仍持续在国内外社交平台发酵。与Sora相关的公司如微软、英伟达也登上了舆论关注顶点乃至市值顶峰。

春节后的A股市场，AI概念也持续活跃。此外，在本周三，苹果也表示，今年将在生成式人工智能领域开辟新天地。

文生视频大模型由用户提供关键词然后自动生成而来。事实上，文生视频领域竞争激烈，国内文生视频大模型领域在3—15秒文生视频方面持续调优。但Sora直接把文生视频的时间长度放大到60秒，而且具备高清晰度、人物表情丰富、情感细腻等特征。对此，腾讯TVP智慧零售行业大使、中国信通院低代码/无代码推进中心技术专家、广东数字经济专委会副主任委员沈欣向本刊表示，Sora让许多大模型的调优工作归零，这是为何Sora的出现引起全球关注。

Sora的运营公司OpenAI称，视频生成模型是有希望向构建通用物理世界模拟器迈进的路径。这一句豪言壮语同样引起业界的关注，许多观点认为Sora将改变世界，促进AI推动的新一轮产业革命提前到来。对OpenAI的“声名”，OpenAI大模型用户、中国科协国促会数字科技发展委员会执行会长、世界紧急救援组织全球尖端科技专家委员会首席科学家万家乐向本刊介绍表示，OpenAI的说法“并不夸张”。

事实是否如此虽然还是未知数，但二级市场的反应却极为活跃。对国内文生视频领域以及受影响的行业而言，万家乐指出，无论Sora多么先进，它必须以更多的社会知识（包括经验）来不断“喂养”，而中国改革开放40多年来的知识和经验积累会是其必须学习的内容，那么垂直行业和领域就充满了机会，该领域被统称为代理（Agent）。沈欣则认为，大模型领域应该集中投入而不是百家混战，从AI体系而言，未来半年到一年半，系统应用、培训、集成硬件、硬件研发等领域将看到积极的利润回馈。

Sora是一场意外？

[“Sora的运行逻辑已经发生根本改变。可能已经能够有一定思考地自主完成工作，这种能力可以归结为‘涌现’。”]

据万家乐介绍，Sora研发团队共13人，其中有两名华裔、一名华人和一名印度人。该团队原本是在大模型基础上开发应用引擎。这支团队在技术原理上相比传统方法做了一些修改，即“将各类视觉数据转化为统一表示的方法，以实现生成式模型的大规模训练。但带来了意想不到的效果，生成出跨越不同时长、宽高比和分辨率的视频和图像，生成长达一分钟的高清视频。”

Sora推出的几十段视频显示，无论用户是以十几个字的关键词还是以300-400字小段话的形式提示，Sora都能生成完整、高质量视频，这似乎显示其具备了一定的理解能力。有分析认为，Sora带来了更长时间、更高分辨率和更能理解用户意图的文生视频呈现，朝着通用人工智能（AGI）迈出重要一步。

OpenAI在推出Sora视频片段后表示，视频生成模型是通向“物理世界模拟器”的一条路，并指出Sora掌握了许多关于真实世界的物理规律。

对此，万家乐指出，“说Sora掌握了一些真实物理世界的规律，没有夸张。传统的文生视频是一帧一帧地连接，所以只能做15秒以内视频，做长一点的视频就会有难以克服的工作量出现。Sora有两个跨时代的性能实现，一是，效果逼真。电影特效全部建立在物理建模基础上，一个电影片花过去需要花费100万美元，发展多年的数字建模一直想取代物理建模，但仍远远不能满足应用需要。如今Sora有可能突破物理建模瓶颈。二是，Sora生成视频时长轻松突破60秒。如果传统的文生视频做同样长度的视频，包括Pikal、Runway这些文生视频公司，不仅工作量可能无法克服，甚至成本也无法承担，因为大模型训练一次就需要500万美元，从15秒跨到60秒，这个训练成本就会阻挡很多公司跟进。”

Sora为什么能做到以上两大突破？在万家乐看来，Sora的运行逻辑已经发生根本改变。所有传统文生视频都以正向建模、人为控制向前演进，而Sora可能已经能够有一定思考地自主完成工作，这种能力可以归结为“涌现”。

按照百度解释，涌现是一种从低层次到高层次的过渡，是在微观主体进化的基础上，宏观系统在性能和机构上的突变，在这一过程中从旧质中可以产生新质。与涌现相对的是熵增，一个孤立系统的总混乱度（即熵）只能增加不会减小。

万家乐指出，Sora最核心的能力就是涌现。“传统文生视频大模型是数据仓库、数据建模、数据分析最后算法的一个结果，是没有捷径可走的。举例说，1+1=2，那么大模型必须是1+1才等于2。Sora则是逆向工程，2=1+1，甚至以其他无数可能得到2，这就是涌现。这种能力即便是OpenAI，也不知道Sora为何拥有涌现能力。我甚至认为，Sora已经‘out of control’，‘失控了’，我们在看到精美的视频的时候是完全不知道它是如何做到的。”

当理解了Sora的不同之处，或许能理解在其发布之时，OpenAI首席执行官萨姆·奥特曼为何一天内发了15条推文，之前他很少发推文，几乎不发。

打通元宇宙瓶颈

[“尽管OpenAI称Sora会带来迭代创新，但我们还是应该关注整个数字科技体系的价值，而不仅仅是看某一项技术的价值。”]

不过，正向建模支持者——图灵奖获得者、Meta首席科学家杨立昆（Yann LeCun）认为，仅仅根据prompt（提示）生成“逼真”视频，并不能代表一个模型理解了物理世界，生成视频的过程与基于世界模型的因果预测完全不同。

对此，沈欣指出，“从Sora目前公开出来的技术来看，就像图灵获得者说的，是做不到仿真物理世界的。举个例子，有一个人一直站在这儿观察苹果从树上掉落到地上，那么他就能从中总结出牛顿定律吗？这不太可能，因为这里面还差了一个层次，这个层次不是用数据的堆积、算力的堆积能够解决的，这是一个认知或者说哲学上的问题，目前的AI在这个地方还差一点。”

Sora生成视频的质量主要由其训练的素材质量和数量决定，微软就提供了千亿级的原始视频资料。比如，Sora生成的一段《我的世界》游戏场景的视频，生成的质量极高，这就是因为其拥有这方面足够多的高质量的视频类素材去训练它。沈欣指出，“Sora在定性方面做得很好，比如说它可以生成一个男性，生成一个女性，生成一个小孩，生成一个穿着红颜色衣服的人，这种定性它已经能做得很好。但如果让它生成一个50%透明度的蒙层效果，就做不到，这种定量上面是有问题的。我说Sora更像一个梦境，就是指它如果要模拟真实的物理世界的话，方向上是错误的，无论视频训练资料多丰富都不等于真实的物理世界本身。当然它可能还有其他没有公开出来的技术，等到公开的时候我们可以再跟进分析。”

从已公开的Sora视频缺陷看，OpenAI在官网上展示出Sora无法准确模拟如玻璃破碎、吃东西并非每次都能留下咬痕等缺陷。从全网“找不同”来看，Sora视频的小毛病还很多，比如，沈欣发现，最著名的美女东京街头漫步的视频，就存在主人翁两个脚迈步走的动作不对的情况。还有一个画家画画的视频，在个别帧中画家的笔还没碰到就已经出现了颜色。Sora为什么会出现这种瑕疵呢？本质上就是它是大量视频素材、大量芯片堆积的一个结果，所谓的“力大砖飞”，而不是真的懂了物理世界。“就像猴子，它不需要懂牛顿力学就能在树林间蹿跳。”

但万家乐并不认为微软发挥了太大作用，“微软在Sora出现的过程中发挥作用有限，每一个使用者是最伟大的，而不是微软伟大。就是说，大模型真正的力量是开源和共识，用的人越多越强大。或许正是用得多，才有涌现的产生。”他说。

没人能断言Sora是否懂得或正在懂得真实的物理世界，但不影响它对经济的改造，比如元宇宙。因为元宇宙承载的内容不需要遵循真实的物理世界，同时元宇宙当前发展的一个瓶颈就是内容生成问题，从这个角度来讲，Sora可以把元宇宙的内容生成瓶颈给快速突破。

同时，Sora还将让OpenAI获得更多的关注和投资。据悉，OpenAI最近完成一笔交易，其估值达到800亿美元，相比10个月前的估值增长近两倍。也是Sora发布之后，奥特曼公开表示，要拿7万亿美元重构整个AI芯片体系，这些资金也将向社会募集。

如果从数字科技和数字经济的角度来看Sora，中国资深投资银行家、太和智库高级研究员王世渝向本刊表示，“从数字科技的角度看，Sora是人工智能领域的一个里程碑。从2008年前后的区块链开始，到之后的比特币、元宇宙以至ChatGPT再到现在的Sora，我们看到了数字科技的持续进步，数字科技的伟大。数字科技的进步不是某一个领域的简单进步，这包括通信、计算机、半导体、互联网、大数据和人工智能等若干个领域的纵向技术进步和横向交互式协同进步，我把这称作是综合性、系统性、协同性数字科技体系。这个数字科技体系已经形成了非常庞大的产业群，而这个产业群构成了新的数字经济形态，新的数字经济形态越来越区别于我们历史上形成的农业经济和工业经济形态。”

他说：“从数字经济形态角度看Sora或者其他某些技术突破，我们不要局限于该技术本身，可能没什么数字技术和第一次工业革命时的蒸汽机发明的历史地位相提并论的。尽管OpenAI称Sora会带来迭代创新，但我们还是应该关注整个数字科技体系的价值，而不仅仅是看某一项技术的价值。”

国内大模型需要补齐的三块短板

[与Sora对比，国内在技术路径、前沿技术和认知差异方面并不明显，但存在缺乏原创的技术、技术整合（灵魂）和灵魂人物以及大量集中投入的短板。]

截至目前，OpenAI没有公开Sora重要的大规模训练技术、各类网络设计细节如视频压缩模型网络，数据/算力方面的核心信息，仅表示Sora是通过在视频和图像的压缩潜在空间中训练，将其分解为时空位置补丁（patches），实现了可扩展的视频生成。对此，沈欣指出，从已经公布的资料来看，Sora基本是老技术的工程化和“力大砖飞”。

从国内来看，大模型对社会的改造正在真实发生，在ChatGPT-3.5公开之后，一些地方开始使用该技术。据万家乐了解，一个地方做数字人导游项目，承接者使用游戏引擎来做，花费了30万元，但没能通过验收，因为使用ChatGPT-3.5只需要2000元。

与Sora对比，国内文生视频大模型与之的技术路径、前沿技术和认知差异并不明显，但存在三块短板。沈欣指出，“国内同业欠缺的是原创的技术、技术整合（灵魂）和灵魂人物以及大量集中投入。如果没有原创技术，慢慢地就会被抛弃到文生视频这个技术世界的外面去了。技术整合的灵魂就是我们到底用它来干什么，灵魂的人物最典型的就是奥特曼这样的领军人物，没有灵魂人物，会极大地影响我们在这个行业的投入和未来发展方向。大量集中投入方面，我们中国搞大模型的公司数量是全球最多的，国外搞大模型的公司就那么几家，应该集中资源办大事。”