Sora到底是何方神圣?

作者: 陈冰

龙年伊始,Sora横空出世,震惊众人。这个自称是“世界模拟器”的新工具,作为OpenAI发布的首个AI文(图)生视频模型,带给人们的感受真的只能用炸裂来形容——根据输入的文字提示,就能生成效果逼真的60秒视频,而且是可以一镜到底的那种。

仅仅在一年前,人们还在嘲笑AI生成的威尔·史密斯(Will Smith)吃意大利面的视频是人工智障。在那段视频里,威尔·史密斯用一种诡异、尴尬的姿势将意大利面铲进一张抽搐、不似人类的嘴里。

可是现在,人们对着Sora输入以下文字:

一位时尚的女士穿着黑色皮夹克、长红裙和黑色靴子,手拿黑色手袋,在东京一条灯光温暖、霓虹灯闪烁、带有动感城市标志的街道上自信而随意地行走。她戴着太阳镜,涂着红色口红。街道潮湿而有反光效果,色彩缤纷的灯光仿佛在地面上创造了镜面效果。许多行人在街上来往。

在这段刷屏的视频中,提示词中的全部细节都得到了体现,而且无论是人物脸上的雀斑,还是水中的倒影都显得极其逼真。以前人们会怀疑,这是假的吧?现在人们会惊叹,这是实拍的吧?不像是AI生成。这种从文本到图像再到视频的进阶之路实在走得太快,以至于一年之前大佬还在预言AGI(通用人工智能)来临之前,还有很长的路要走,现在纷纷开始改口称:AIG的实现将大大提速。360集团创始人、董事长周鸿祎近日就宣称,AIG将在一到两年内实现。

Sora到底是何方神圣?0
Sora生成的红裙女视频,提示词中的全部细节都得到了体现。

Sora背后的技术架构是怎样的,Sora到底有没有理解物理世界的能力,它的出现是否意味着AGI将在一年内实现?以ChatGPT、Sora为代表的AI技术将如何颠覆人类社会既有的种种规则?我们又将如何应对?

关于Sora,我们有太多的未解之问。

Sora不再是一个创意玩具,而是一个“数据驱动的物理引擎”,一个可学习的模拟器或“世界模型”,可以对真实或虚拟世界进行模拟。

Sora是不是横空出世?

过去一年多,以ChatGPT为代表的大模型现身江湖,引发科技界一片沸腾。2024年中国农历新年还没过完,AI界又发生了三件大事:谷歌推出Gemini新版本,支持超过100万个token的输入窗口;英伟达推出ChatWithRTX,誓把每个人电脑都变成一个私有大模型;当然,最震撼的还是Sora华丽登场。

近年来,AI 生成文字、生成图片的技术飞速发展。相比之下,AI生成视频领域虽有Runway、Pika 、Meta、谷歌等多个明星公司入局,但因技术难度更大,发展仍处于早期。

2023年12月,谷歌团队发布视频生成模型VideoPoet,一次能生成10秒超长、连贯大动作的视频,超过其他智能生成3~4秒的模型,已足以让业内振奋。谁能想到,2个月不到,Sora已经可以一次生成60秒钟的连贯视频,并且包含高度细致的背景、复杂的多角度镜头,以及富有情感的多个角色。

OpenAI首席执行官奥特曼在X平台上发布了一系列视频,精美的场景、逼真的人物细节让用户惊叹不已。而这些视频全都是通过OpenAI 2月15日发布的最新视频生成模型Sora制作的,人们将其描述为“绝无仅有”和“游戏规则改变者”。

1分钟的视频并不长,但对于AI文字生成视频却是一个巨大的飞跃。在此之前,文字生成视频的时长只有短短几秒,一大原因就在于,AI不知道接下来要发生什么,因而不知道该生成怎样的内容。

Sora发布的黑衣红裙女视频很好地保持了人物的连贯性,让观众也明显感受到其几乎可以“以假乱真”。当然,如果仔细观察,可以发现红裙女视频中人物的脚步在某几个帧会出现不自然的扭曲,视频中的背景广告牌虽然酷似日文,但由于目前AI还无法直接在视频中“认识”文字,其只能生成似是而非的“日文”。在另一则中国龙年舞龙的视频中,出现的也并非真正的汉字“龙”,只是像汉字的图形而已。这些都是AI生成视频的特点之一。不过瑕不掩瑜,Sora已经用事实吊打了同类型的文生视频应用。它不仅更加符合逻辑,还在一定程度上“展现”了对现实世界的理解能力。

英伟达人工智能研究院首席研究科学家Jim Fan在社交平台感叹,Sora不再是一个创意玩具,而是一个“数据驱动的物理引擎”,一个可学习的模拟器或“世界模型”,可以对真实或虚拟世界进行模拟。

那么,Sora具体厉害在哪?

如果说,之前的AI“文生视频”工具是“模拟现实”,Sora则是“构建现实”。两者的区别在于,前者是对现实的模仿,难以捕捉现实世界的物理规则、动态变化。后者,则是在虚拟世界里,构建另外一种现实。其学习的不仅是像素与画面,还有现实世界的“物理规律”。

Jim Fan对咖啡杯里的海盗船这则视频进行了拆解分析。首先,在这个视频中模拟器生成了两只带不同装饰的精美海盗船,这需要Sora在其潜在空间中解决文本到3D的隐含问题;第二,这两艘船需要在航行和避开对方路径时始终保持动画效果;第三,从流体动力学上来看,咖啡的流动以及船只周围形成的泡沫都非常自然。流体模拟是计算机图形学的一个完整子领域,传统上需要非常复杂的算法和方程;第四,在逼真度上,整体的效果看起来几乎就像使用光线跟踪渲染一样;第五,模拟器考虑到与海洋相比,杯子的体积较小,因此采用了倾斜移位摄影技术,营造出一种微景观的感觉;第六,虽然提示词中场景的语义并不存在于现实世界之中,但Sora依然实现了我们所期望的正确物理规则。

Sora到底是何方神圣?1
咖啡杯里的海盗船视频,展现了人类所期望的正确物理规则。

这就是Sora的独到之处,理解运动中的物理世界。复旦大学教授、上海市数据科学重点实验室主任肖仰华指出,因为世界本质上是非常复杂的,非线性的。我们传统的模型只能建一些线性的简单关系。像流体力学之类非常复杂的现象,用传统的模型非常难建模。但是今天我们看到基于Transformer深度神经网络的大模型架构,Sora已经具备了对现实世界复杂现象非常逼真的建模能力,这是Sora带来的一个新高度。

在Sora推出后不久,OpenAI发布了这款新工具的技术报告。报告指出Sora的一个强大的能力是它的语言理解能力。OpenAI利用Dall-E模型的re-captioning(重述要点)技术,生成视觉训练数据的描述性字幕,不仅能提高文本的准确性,还能提升视频的整体质量。此外,与DALL·E 3类似,OpenAI还利用GPT技术将简短的用户提示转换为更长的详细转译,并将其发送到视频模型。这使Sora能够精确地按照用户提示生成高质量的视频。

因为一篇张冠李戴的文章而被误称为Sora发明者之一的纽约大学计算机科学助理教授谢赛宁,实际上是机器学习领域知名学者,也是扩散模型(Diffusion Transformer,简称DiT)一篇重要论文的主要作者之一。他分析Sora应该也是一个建立在DiT架构上的扩散模型,同时结合了GPT技术的混合模型,从而在视觉领域实现重大突破。“对于Sora这样的大规模系统工程而言,神经网络架构只是其中很小一部分。大部分的功劳要归功于OpenAI的人才储备,高质量数据规模以及巨大的算力。”

Sora到底是何方神圣?2
Sora视频完整展现了小怪兽伸出爪子挡住红色蜡烛跳动的火焰,它的影子随之偏移的物理过程。

简而言之,60秒超长长度、单视频多角度镜头和世界模型是Sora的三大关键词。如果没有大语言模型的加持,Sora是不可能迅速“进化”到今天这个地步的。

Sora能否理解世界?

毫无疑问,Sora目前展现出来的“逻辑能力”看似非常强大,或者说它展现出来的视频世界更符合人类观念中的现实世界。

但Sora真的能够理解世界吗?随着一系列匪夷所思的Sora视频出现,业界有了截然不同的判断。

比如在一个样片中,提示词为“考古学家在沙漠中发现了一把普通的塑料椅子,正小心翼翼地挖掘和除尘”,Sora生成的视频出现了椅子变形、自动行走等诡异的场景。

另一个玻璃杯碎裂的视频中,玻璃杯碎裂的方式也十分诡异——它被抬到半空中时,桌子上就忽然出现了一摊平整的红色玻璃,随后玻璃杯被摔到桌子上,和这摊玻璃融为一体。

很显然,Sora混淆了玻璃破碎和液体溢出的顺序,也并不能推理时间和因果关系。这不正说明,Sora目前还无法理解全部的物理世界?

再比如,Sora团队Aditya Ramesh自豪地放出一个蚂蚁巢穴内爬行的视频,粗看似乎很惊艳,仔细一看,却令人啼笑皆非——蚂蚁怎么只有四条腿?!

还有一个老奶奶庆祝生日的视频,每一帧都异常逼真,但是当老奶奶吹了生日蜡烛的时候,蜡烛的火苗竟然纹丝不动。最离谱的还是一个男人在跑步机上煞有介事地反向跑步。如此“南辕北辙的跑步”视频,让人看到了Sora“智障”的一面,这些翻车视频暂时让人们松了一口气,“输入一部小说,产生一部电影”的时代还不会马上到来。

美国纽约州立大学石溪分校计算机系顾险峰教授撰文指出,观察“幽灵椅子”视频,整个椅子如鬼魅般悬空,这与日常经验相悖。再如“四足蚂蚁”的视频,蚂蚁的动作栩栩如生,宛如行云流水。局部上非常流畅自然,令人不禁联想或许在某个星球上存在这种四足蚂蚁。但是整体上,地球的自然界并没有四足蚂蚁。这种“局部合理,整体荒谬”的生成视频,意味着Transformer学会了Token间局部的连接概率,但是缺乏时空上下文的大范围整体观念。

Sora到底是何方神圣?3
黄仁勋2016年向OpenAI捐出全球第一台AI超算DGX-1时,马斯克还是OpenAI的联合创始人。

AI科学家马库斯(Gary Marcus)则发文表示,“我们需要认识到,并非Sora生成的所有视频都来自其训练集。Sora也并不总是遵循物理学、生物学和文化的规律。我最近讨论的7*7棋盘、4条腿的蚂蚁,和碎裂的杯子一样,都证明了Sora是一个鲁莽的野兽,而非迭代的、基于定律的物理引擎。其实,Sora只是泛化了像素的模式,而并非世界上物体的模式”。

图灵奖得主、Meta公司首席科学家、AI团队负责人杨立昆(Yann LeCun)说,在他看来,仅仅根据提示词生成逼真视频并不能代表一个模型理解了物理世界,生成视频的过程与基于世界模型的因果预测完全不同。他认为Sora并不能模拟物理世界,在社交平台上发文称 “这里存在‘巨大’的误导”。

对此,英伟达高级研究科学家Jim Fan表示,我们可以从两个角度来解释这个问题:(1)可能是因为这个模型根本没有掌握物理知识,它仅仅是在无序地拼凑图像像素;(2)模型确实尝试构建了一个内部的物理引擎,但这个引擎的表现还不尽如人意。就像是第一代虚幻引擎在处理流体动力学和物体变形等问题上,与V5相比有着明显的不足。同样地,V1的渲染效果也远不如V5,并且缺乏物理上的准确性。

猎豹移动董事长兼CEO、猎户星空董事长傅盛则认为Sora在某种意义上具备了对世界的理解。“但如果你说它把整个物理世界复刻了,我觉得这肯定不是真实的。我认为它对世界的理解还停留在比较初级的水平。就像一个五六岁的小孩,对世界的理解并不深,但画图方面是一个天才儿童。我认为这也是电脑特性决定的,计算机的能力和人类能力并不一样,对我们来说很难的事情对它来说可能很简单,画画对计算机来说就是一堆的像素点打出来,这个色阶正好符合你的审美。所以我觉得仅以视频本身去惊叹Sora对物理世界的理解到了一个什么高度,这点我是绝对不认同的,‘AGI因此由十年变一年’,这个我也不认同。”

上一篇 点击页面呼出菜单 下一篇