Sora到底是何方神圣？

龙年伊始，Sora横空出世，震惊众人。这个自称是“世界模拟器”的新工具，作为OpenAI发布的首个AI文（图）生视频模型，带给人们的感受真的只能用炸裂来形容——根据输入的文字提示，就能生成效果逼真的60秒视频，而且是可以一镜到底的那种。

仅仅在一年前，人们还在嘲笑AI生成的威尔·史密斯（Will Smith）吃意大利面的视频是人工智障。在那段视频里，威尔·史密斯用一种诡异、尴尬的姿势将意大利面铲进一张抽搐、不似人类的嘴里。

可是现在，人们对着Sora输入以下文字：

一位时尚的女士穿着黑色皮夹克、长红裙和黑色靴子，手拿黑色手袋，在东京一条灯光温暖、霓虹灯闪烁、带有动感城市标志的街道上自信而随意地行走。她戴着太阳镜，涂着红色口红。街道潮湿而有反光效果，色彩缤纷的灯光仿佛在地面上创造了镜面效果。许多行人在街上来往。

在这段刷屏的视频中，提示词中的全部细节都得到了体现，而且无论是人物脸上的雀斑，还是水中的倒影都显得极其逼真。以前人们会怀疑，这是假的吧？现在人们会惊叹，这是实拍的吧？不像是AI生成。这种从文本到图像再到视频的进阶之路实在走得太快，以至于一年之前大佬还在预言AGI（通用人工智能）来临之前，还有很长的路要走，现在纷纷开始改口称：AIG的实现将大大提速。360集团创始人、董事长周鸿祎近日就宣称，AIG将在一到两年内实现。

Sora生成的红裙女视频，提示词中的全部细节都得到了体现。

Sora背后的技术架构是怎样的，Sora到底有没有理解物理世界的能力，它的出现是否意味着AGI将在一年内实现？以ChatGPT、Sora为代表的AI技术将如何颠覆人类社会既有的种种规则？我们又将如何应对？

关于Sora，我们有太多的未解之问。

Sora不再是一个创意玩具，而是一个“数据驱动的物理引擎”，一个可学习的模拟器或“世界模型”，可以对真实或虚拟世界进行模拟。

Sora是不是横空出世？

过去一年多，以ChatGPT为代表的大模型现身江湖，引发科技界一片沸腾。2024年中国农历新年还没过完，AI界又发生了三件大事：谷歌推出Gemini新版本，支持超过100万个token的输入窗口；英伟达推出ChatWithRTX，誓把每个人电脑都变成一个私有大模型；当然，最震撼的还是Sora华丽登场。

近年来，AI 生成文字、生成图片的技术飞速发展。相比之下，AI生成视频领域虽有Runway、Pika 、Meta、谷歌等多个明星公司入局，但因技术难度更大，发展仍处于早期。

2023年12月，谷歌团队发布视频生成模型VideoPoet，一次能生成10秒超长、连贯大动作的视频，超过其他智能生成3～4秒的模型，已足以让业内振奋。谁能想到，2个月不到，Sora已经可以一次生成60秒钟的连贯视频，并且包含高度细致的背景、复杂的多角度镜头，以及富有情感的多个角色。

OpenAI首席执行官奥特曼在X平台上发布了一系列视频，精美的场景、逼真的人物细节让用户惊叹不已。而这些视频全都是通过OpenAI 2月15日发布的最新视频生成模型Sora制作的，人们将其描述为“绝无仅有”和“游戏规则改变者”。

1分钟的视频并不长，但对于AI文字生成视频却是一个巨大的飞跃。在此之前，文字生成视频的时长只有短短几秒，一大原因就在于，AI不知道接下来要发生什么，因而不知道该生成怎样的内容。

Sora发布的黑衣红裙女视频很好地保持了人物的连贯性，让观众也明显感受到其几乎可以“以假乱真”。当然，如果仔细观察，可以发现红裙女视频中人物的脚步在某几个帧会出现不自然的扭曲，视频中的背景广告牌虽然酷似日文，但由于目前AI还无法直接在视频中“认识”文字，其只能生成似是而非的“日文”。在另一则中国龙年舞龙的视频中，出现的也并非真正的汉字“龙”，只是像汉字的图形而已。这些都是AI生成视频的特点之一。不过瑕不掩瑜，Sora已经用事实吊打了同类型的文生视频应用。它不仅更加符合逻辑，还在一定程度上“展现”了对现实世界的理解能力。

英伟达人工智能研究院首席研究科学家Jim Fan在社交平台感叹，Sora不再是一个创意玩具，而是一个“数据驱动的物理引擎”，一个可学习的模拟器或“世界模型”，可以对真实或虚拟世界进行模拟。

那么，Sora具体厉害在哪？

如果说，之前的AI“文生视频”工具是“模拟现实”，Sora则是“构建现实”。两者的区别在于，前者是对现实的模仿，难以捕捉现实世界的物理规则、动态变化。后者，则是在虚拟世界里，构建另外一种现实。其学习的不仅是像素与画面，还有现实世界的“物理规律”。

Jim Fan对咖啡杯里的海盗船这则视频进行了拆解分析。首先，在这个视频中模拟器生成了两只带不同装饰的精美海盗船，这需要Sora在其潜在空间中解决文本到3D的隐含问题；第二，这两艘船需要在航行和避开对方路径时始终保持动画效果；第三，从流体动力学上来看，咖啡的流动以及船只周围形成的泡沫都非常自然。流体模拟是计算机图形学的一个完整子领域，传统上需要非常复杂的算法和方程；第四，在逼真度上，整体的效果看起来几乎就像使用光线跟踪渲染一样；第五，模拟器考虑到与海洋相比，杯子的体积较小，因此采用了倾斜移位摄影技术，营造出一种微景观的感觉；第六，虽然提示词中场景的语义并不存在于现实世界之中，但Sora依然实现了我们所期望的正确物理规则。

咖啡杯里的海盗船视频，展现了人类所期望的正确物理规则。

这就是Sora的独到之处，理解运动中的物理世界。复旦大学教授、上海市数据科学重点实验室主任肖仰华指出，因为世界本质上是非常复杂的，非线性的。我们传统的模型只能建一些线性的简单关系。像流体力学之类非常复杂的现象，用传统的模型非常难建模。但是今天我们看到基于Transformer深度神经网络的大模型架构，Sora已经具备了对现实世界复杂现象非常逼真的建模能力，这是Sora带来的一个新高度。

在Sora推出后不久，OpenAI发布了这款新工具的技术报告。报告指出Sora的一个强大的能力是它的语言理解能力。OpenAI利用Dall-E模型的re-captioning（重述要点）技术，生成视觉训练数据的描述性字幕，不仅能提高文本的准确性，还能提升视频的整体质量。此外，与DALL·E 3类似，OpenAI还利用GPT技术将简短的用户提示转换为更长的详细转译，并将其发送到视频模型。这使Sora能够精确地按照用户提示生成高质量的视频。

因为一篇张冠李戴的文章而被误称为Sora发明者之一的纽约大学计算机科学助理教授谢赛宁，实际上是机器学习领域知名学者，也是扩散模型（Diffusion Transformer，简称DiT）一篇重要论文的主要作者之一。他分析Sora应该也是一个建立在DiT架构上的扩散模型，同时结合了GPT技术的混合模型，从而在视觉领域实现重大突破。“对于Sora这样的大规模系统工程而言，神经网络架构只是其中很小一部分。大部分的功劳要归功于OpenAI的人才储备，高质量数据规模以及巨大的算力。”

Sora到底是何方神圣？2 — Sora视频完整展现了小怪兽伸出爪子挡住红色蜡烛跳动的火焰，它的影子随之偏移的物理过程。

简而言之，60秒超长长度、单视频多角度镜头和世界模型是Sora的三大关键词。如果没有大语言模型的加持，Sora是不可能迅速“进化”到今天这个地步的。

Sora能否理解世界？

毫无疑问，Sora目前展现出来的“逻辑能力”看似非常强大，或者说它展现出来的视频世界更符合人类观念中的现实世界。

但Sora真的能够理解世界吗？随着一系列匪夷所思的Sora视频出现，业界有了截然不同的判断。

比如在一个样片中，提示词为“考古学家在沙漠中发现了一把普通的塑料椅子，正小心翼翼地挖掘和除尘”，Sora生成的视频出现了椅子变形、自动行走等诡异的场景。

另一个玻璃杯碎裂的视频中，玻璃杯碎裂的方式也十分诡异——它被抬到半空中时，桌子上就忽然出现了一摊平整的红色玻璃，随后玻璃杯被摔到桌子上，和这摊玻璃融为一体。

很显然，Sora混淆了玻璃破碎和液体溢出的顺序，也并不能推理时间和因果关系。这不正说明，Sora目前还无法理解全部的物理世界？

再比如，Sora团队Aditya Ramesh自豪地放出一个蚂蚁巢穴内爬行的视频，粗看似乎很惊艳，仔细一看，却令人啼笑皆非——蚂蚁怎么只有四条腿？！

还有一个老奶奶庆祝生日的视频，每一帧都异常逼真，但是当老奶奶吹了生日蜡烛的时候，蜡烛的火苗竟然纹丝不动。最离谱的还是一个男人在跑步机上煞有介事地反向跑步。如此“南辕北辙的跑步”视频，让人看到了Sora“智障”的一面，这些翻车视频暂时让人们松了一口气，“输入一部小说，产生一部电影”的时代还不会马上到来。

美国纽约州立大学石溪分校计算机系顾险峰教授撰文指出，观察“幽灵椅子”视频，整个椅子如鬼魅般悬空，这与日常经验相悖。再如“四足蚂蚁”的视频，蚂蚁的动作栩栩如生，宛如行云流水。局部上非常流畅自然，令人不禁联想或许在某个星球上存在这种四足蚂蚁。但是整体上，地球的自然界并没有四足蚂蚁。这种“局部合理，整体荒谬”的生成视频，意味着Transformer学会了Token间局部的连接概率，但是缺乏时空上下文的大范围整体观念。

Sora到底是何方神圣？3 — 黄仁勋2016年向OpenAI捐出全球第一台AI超算DGX-1时，马斯克还是OpenAI的联合创始人。

AI科学家马库斯（Gary Marcus）则发文表示，“我们需要认识到，并非Sora生成的所有视频都来自其训练集。Sora也并不总是遵循物理学、生物学和文化的规律。我最近讨论的7*7棋盘、4条腿的蚂蚁，和碎裂的杯子一样，都证明了Sora是一个鲁莽的野兽，而非迭代的、基于定律的物理引擎。其实，Sora只是泛化了像素的模式，而并非世界上物体的模式”。

图灵奖得主、Meta公司首席科学家、AI团队负责人杨立昆（Yann LeCun）说，在他看来，仅仅根据提示词生成逼真视频并不能代表一个模型理解了物理世界，生成视频的过程与基于世界模型的因果预测完全不同。他认为Sora并不能模拟物理世界，在社交平台上发文称 “这里存在‘巨大’的误导”。

对此，英伟达高级研究科学家Jim Fan表示，我们可以从两个角度来解释这个问题：（1）可能是因为这个模型根本没有掌握物理知识，它仅仅是在无序地拼凑图像像素；（2）模型确实尝试构建了一个内部的物理引擎，但这个引擎的表现还不尽如人意。就像是第一代虚幻引擎在处理流体动力学和物体变形等问题上，与V5相比有着明显的不足。同样地，V1的渲染效果也远不如V5，并且缺乏物理上的准确性。

猎豹移动董事长兼CEO、猎户星空董事长傅盛则认为Sora在某种意义上具备了对世界的理解。“但如果你说它把整个物理世界复刻了，我觉得这肯定不是真实的。我认为它对世界的理解还停留在比较初级的水平。就像一个五六岁的小孩，对世界的理解并不深，但画图方面是一个天才儿童。我认为这也是电脑特性决定的，计算机的能力和人类能力并不一样，对我们来说很难的事情对它来说可能很简单，画画对计算机来说就是一堆的像素点打出来，这个色阶正好符合你的审美。所以我觉得仅以视频本身去惊叹Sora对物理世界的理解到了一个什么高度，这点我是绝对不认同的，‘AGI因此由十年变一年’，这个我也不认同。”