Sora背后的“王炸”团队

Sora背后的“王炸”团队0

霓虹闪烁的东京街头，一名红裙黑靴、戴太阳镜的时髦女子款款走来。她身后广告牌出现的位置，潮湿街道的镜面效果，墨镜中的光影，还有其脸部的肌理、雀斑，都完全符合真实的世界。

这是近日“横空出世”的文生视频模型Sora输出的一部作品——仅凭几句描述，它立马能生成60秒的连贯视频，大片质感，镜头百变，如梦似幻。人山人海的龙年春节、火车窗外的倒影、戴红头盔的宇航员在沙漠中冒险……模拟真实场景的超强能力，使得Sora一问世就立即引爆全球，甚至连在人工智能领域一向野心勃勃的特斯拉CEO埃隆·马斯克也“坐不住”了。他很快在社交媒体上对此评价说：“人类愿赌服输。”

时代变革的钟声，似乎已经敲响。“Sora的最大意义，并非只是文生视频，而是意味着大模型可以认知世界，例如在智能驾驶领域从‘感知’升级到‘认知’，并且这还不是全部。”太和智库大数据研发首席专家、车车科技董事长张磊对《环球人物》记者说。不少业内人士认为，Sora可以被看作是通往通用人工智能的一座里程碑。

“世界模拟器”

Sora是美国人工智能巨头OpenAI的新产品。此前，OpenAI旗下已经有自动语音识别系统Whisper、图像生成模型DALL-E等产品。

正是在以往的技术范式之上，OpenAI做出了新产品Sora。以2021年推出的DALL-E模型为例，其可根据用户输入的描述生成图像。据官方说法，他们利用DALL-E的数据集重描述功能，给训练Sora用的视频素材加上了高质量文本描述，以提高输出视频的质量。目前的Sora，不仅可以理解用户在提示中提出的要求，还能理解它们在物理世界中的存在方式。官方称之为“世界模拟器”。

OpenAI的CEO山姆·奥特曼甚至直接在社交媒体上根据网友评论为大家制作Sora视频。有人提出想要“一段海上自行车比赛的视频，让各种动物作为运动员骑自行车”。奥特曼在回复中发布了视频，里面有企鹅、海豚和其他水生生物骑自行车。有人向奥特曼要一段“由一名祖母辈的网红主持的自制团子烹饪课程，背景是一个质朴的乡村厨房，并配有电影级的灯光”，之后Sora生成了另一段视频：一位身穿围裙、面带微笑的白发女士邀请观众进入她的厨房。

Sora生成作品：女子漫步在霓虹闪烁的东京街头。

在 Sora 官方介绍页里，无数纸飞机在丛林中翩翩起舞、自由飞翔，如同正在穿梭的候鸟。在日语中，Sora 的引申义是“自由”。这或许意味着，每个人都可以通过Sora自由展示想象空间。

精准贴合文字指令和极致真实是Sora作品给人的第一印象。咖啡杯里浮沉的海盗船，符合流体力学；都市内虚空巡游的鲸鱼，遵从无形潮汐……这些作品意味着，Sora不是在虚构世界，而是在生成世界。

360创始人周鸿祎在社交媒体上表示，Sora的诞生意味着通用人工智能实现可能从10年缩短至一两年。通用人工智能是指能在复杂动态环境中，学习并完成多样任务的人工智能。

Sora并非首个文生视频大模型。2023年，Pika Labs发布首个产品Pika 1.0，能生成和编辑3D动画、动漫、卡通和电影，被视为零门槛“视频生成神器”。Runway、谷歌Lumiere视频AI生成模型、Stability AI的SVD1.1也相继问世。

不过，之前的AI 生成视频时间短，且易卡顿。Sora则弯道超车，单次能生成60秒的连贯视频。“之前的类似产品能生成10秒钟的视频，这次的Sora是1分钟，算是比较突出的量变。”智源研究院理事长、北京大学教授黄铁军说。

此外，Sora用户还可以输入图片转成视频，或更换视频中的元素，甚至把两个不相关的视频自然拼接起来，自主为视频补帧。这说明Sora能够模拟物理世界，并有一些预测能力。

据中信证券研报，如果后续持续扩大模型及训练集的规模，以Sora为基础的模型可能做到模拟世界，成为真正的“世界模型”。“通用人工智能要拥有世界模型，然后基于自己对世界模型的理解描述来行动。”黄铁军说，“Sora内部的这种世界模型的表达，在接近真实的程度方面有较大提高，可以说是走向通用人工智能的重要台阶。”

黄铁军指出，包括OpenAI在内的科研企业或机构，目的都是研究智能越来越强的基础大模型，运行起来会对各行各业产生影响，智能会成为越来越强的社会要素。

应届生领衔，“00后”入列

Sora“技惊四座”之后，其背后的团队也来到了聚光灯中心。

事实上，该研发团队成立时间还不到一年，成员背景多元，大多行事低调。这支集技术和艺术，博士和本科生，美国人、印度人和华人等为一体的团队，为Sora这一变革性AI模型的诞生提供了无限可能性。“不能用传统的高学历或资历来看这个事情，历史上很多创新往往是由年轻人以某种偶然方式实现的。”黄铁军对这支团队评价说。

Sora公布的研发成员名单显示，带头人有两位——威廉·皮伯斯和蒂姆·布鲁克斯。两人师出同门，均在2019年进入加州大学伯克利分校深造，并于2023年先后博士毕业。这两位应届博士生呕心沥血近一年时间，“每天睡得很少，高强度工作”，才有了Sora的问世。

皮伯斯青春洋溢，笑容很灿烂，喜欢自称“比尔”。像大多数博士一样，他戴眼镜，穿着清爽适体的衣服。在社交媒体上，这位技术大佬除了发布工作内容，时不时还会对一些公共政策发表意见。皮伯斯转发过很多美国政要的帖子，如2016年，皮伯斯就转发了特朗普的一条推文，大致内容是“选举团是民主的灾难”，皮伯斯评论道：“同意。”此次Sora成为关注焦点后，皮伯斯社交媒体的评论区几乎被挤爆，粉丝们纷纷发出“恭喜！”“伟大的工作！”“梦想成真了！”等赞叹。

Sora背后的“王炸”团队2 — 海上自行车比赛中，动物运动员骑着自行车。图为通过这些提示词，Sora生成视频的截图。

Sora背后的“王炸”团队3 — Sora研发团队成员皮伯斯（左）与布鲁克斯（右）。

皮伯斯是个“学习小天才”，本科就读于麻省理工学院，主修计算机科学。他参加过多媒体制作软件开发商奥多比公司的暑期实习，还去过人工智能企业英伟达实习，研究计算机视觉。

尽管年纪尚轻，皮伯斯的业界经验却十分丰富。读博期间，他的研究成果多次入选国际图形学年会等学术会议。2022年5月，他到社交媒体巨头Meta实习，和同事合作发表了DiT模型。第二年，该成果被计算机视觉国际大会录用。也是在同一年，皮伯斯在加州大学伯克利分校的人工智能研究中心完成博士学业。DiT架构正是Sora的核心技术支撑之一。而Sora技术报告引用的关键文献《具有自注意力网络的可扩展扩散模型》也出自皮伯斯之手。从某种程度上说，皮伯斯为Sora带来了核心技术基础。

皮伯斯的博士师兄布鲁克斯早毕业了几个月。他本科就读于卡内基梅隆大学，主修逻辑与计算，辅修计算机科学，其间在脸书的软件工程部门实习了约四个月。2017年，布鲁克斯本科毕业，先到谷歌研究AI相机，之后到伯克利AI实验室读博，主要研究方向是图片与视频生成。读博期间，布鲁克斯研制出了AI图片编辑工具InstructPix2Pix——这是一项通过输入指令进行快速图像编辑的技术。这一研究经历使他在研发Sora时如虎添翼。2023年1月，布鲁克斯博士毕业，加入OpenAI，并相继参与了DALL-E和Sora的工作。

布鲁克斯多才多艺。他高中时拍的照片获过大奖。如今，他是一名专业摄影师，经常走进大自然拍动物。此外，他还在纽约百老汇灯塔剧院登台演出过，并赢得无伴奏表演节奏口技的国际奖项。他经常分享自己的文艺作品，还发帖称：“我对AI充满热情，幸运的是，这种热情与我对摄影、电影和音乐的爱好完美融合。”

在Sora项目中，布鲁克斯的研究重点是开发能模拟现实世界的大型生成模型。他的文艺爱好对Sora的开发大有裨益——作为一个生成视觉产品，Sora需要具有艺术和科技跨界背景的人。

Sora研发团队中这样的人不在少数，如来自旧金山艺术大学的乔·泰勒，他在页面设计、艺术指导等方面能力强，时不时还会去伯克利制作手工艺品。与其说是工程师，他更像一名艺术家。进入OpenAI前，他在多家公司负责过页面设计等工作，这些经验使他能在研发Sora时进行审美和设计上的赋能。

值得一提的是，团队里印度裔的阿迪蒂亚·拉梅什以及“00后”威尔·迪普都只有本科学历。拉梅什就读于纽约大学，在校期间就已经开始研究生成式模型。他毕业后本想继续深造，却意外地在OpenAI的暑期实习中被留下来，成了一名研究员。尽管拉梅什在学历方面“稍显逊色”，但在资历上是元老级的，算是Sora基础技术的奠基人之一，这让他有资格在整个团队中担任“执行制作人”。拉梅什主导了文字转图形模型DALL-E三代的研究，这三代模型的精确度和质量不断提高。

2023年，拉梅什在一次采访中表示：“人类能描述现实生活中可能遇到的任何情况，但也可以描述不可思议的情况或不可能发生的场景。我们想看看，如果训练一个模型，来从文本中生成图像，是否能够做到与人类一样的推断能力。”拉梅什的想法或多或少地影响了Sora的诞生，促成了Sora模拟现实的能力。他希望AI模型能够像人一样推理，这一期望已经在Sora上得到一定实现。

另一位本科生威尔·迪普2003年出生在西雅图，曾在阿根廷生活过，能说“半流利”的西班牙语。他半年前在一个节目中分享了自己的人生信条：“如果一件事要有人做，且没有其他人能做到，很好，那就由我来干。”这位“00后”的确是个实干派。早在高中时期，他就开始研发面向高中师生的即时通讯平台。该平台关闭后，迪普又招募团队研发了一个可视化工具，这家公司后来被社群管理与分析公司康索收购。2022年，迪普从密歇根大学计算机系本科毕业。同年7月，他加入OpenAI，并于2024年1月加入Sora项目组。

值得一提的是，迪普还是一位社交媒体达人，他2018年加入X平台，至今已发了5400余条推文，甚至曾分析过推文的传播规律：“最伟大的推文总有一种诗意，开头勾住你，然后让你进入一个阅读的圈，最后加上一个‘啪’式的响亮结尾。这感觉就像海明威一样。”

备受关注的还有Sora团队里的华人研究员。他们的公开信息不多，显得颇为神秘。王宇2010年在南京师范大学附属中学就读，2013年考入加州大学伯克利分校，从毕业后到今年1月加入OpenAI前，他有在Meta和Instagram（照片墙）任软件工程师及工程经理的经历。研究员靖礼是湖北人，高中时曾获第四十一届国际中学生物理学奥林匹克竞赛金牌，2014年毕业于北京大学物理系，后在麻省理工学院获博士学位，在Meta工作两年后加入OpenAI。此外，作为曦智科技的联合创始人，靖礼还入选2019年福布斯中国30位30岁以下精英榜。他的社交媒体主页写着：“我热衷于帮助人工智能了解现实世界并创造新的智能。”

中美差距扩大？

尽管Sora团队有几名华人，但类似成果并未出自我国。这是否凸显出中美高科技之间的差距？业内人士称，差距确实存在，但没想象中的那么大。