Sora背后的“王炸”团队

作者: 冯璐 梁钰诚

Sora背后的“王炸”团队0

霓虹闪烁的东京街头,一名红裙黑靴、戴太阳镜的时髦女子款款走来。她身后广告牌出现的位置,潮湿街道的镜面效果,墨镜中的光影,还有其脸部的肌理、雀斑,都完全符合真实的世界。

这是近日“横空出世”的文生视频模型Sora输出的一部作品——仅凭几句描述,它立马能生成60秒的连贯视频,大片质感,镜头百变,如梦似幻。人山人海的龙年春节、火车窗外的倒影、戴红头盔的宇航员在沙漠中冒险……模拟真实场景的超强能力,使得Sora一问世就立即引爆全球,甚至连在人工智能领域一向野心勃勃的特斯拉CEO埃隆·马斯克也“坐不住”了。他很快在社交媒体上对此评价说:“人类愿赌服输。”

时代变革的钟声,似乎已经敲响。“Sora的最大意义,并非只是文生视频,而是意味着大模型可以认知世界,例如在智能驾驶领域从‘感知’升级到‘认知’,并且这还不是全部。”太和智库大数据研发首席专家、车车科技董事长张磊对《环球人物》记者说。不少业内人士认为,Sora可以被看作是通往通用人工智能的一座里程碑。

“世界模拟器”

Sora是美国人工智能巨头OpenAI的新产品。此前,OpenAI旗下已经有自动语音识别系统Whisper、图像生成模型DALL-E等产品。

正是在以往的技术范式之上,OpenAI做出了新产品Sora。以2021年推出的DALL-E模型为例,其可根据用户输入的描述生成图像。据官方说法,他们利用DALL-E的数据集重描述功能,给训练Sora用的视频素材加上了高质量文本描述,以提高输出视频的质量。目前的Sora,不仅可以理解用户在提示中提出的要求,还能理解它们在物理世界中的存在方式。官方称之为“世界模拟器”。

OpenAI的CEO山姆·奥特曼甚至直接在社交媒体上根据网友评论为大家制作Sora视频。有人提出想要“一段海上自行车比赛的视频,让各种动物作为运动员骑自行车”。奥特曼在回复中发布了视频,里面有企鹅、海豚和其他水生生物骑自行车。有人向奥特曼要一段“由一名祖母辈的网红主持的自制团子烹饪课程,背景是一个质朴的乡村厨房,并配有电影级的灯光”,之后Sora生成了另一段视频:一位身穿围裙、面带微笑的白发女士邀请观众进入她的厨房。

Sora背后的“王炸”团队1
Sora生成作品:女子漫步在霓虹闪烁的东京街头。

在 Sora 官方介绍页里,无数纸飞机在丛林中翩翩起舞、自由飞翔,如同正在穿梭的候鸟。在日语中,Sora 的引申义是“自由”。这或许意味着,每个人都可以通过Sora自由展示想象空间。

精准贴合文字指令和极致真实是Sora作品给人的第一印象。咖啡杯里浮沉的海盗船,符合流体力学;都市内虚空巡游的鲸鱼,遵从无形潮汐……这些作品意味着,Sora不是在虚构世界,而是在生成世界。

360创始人周鸿祎在社交媒体上表示,Sora的诞生意味着通用人工智能实现可能从10年缩短至一两年。通用人工智能是指能在复杂动态环境中,学习并完成多样任务的人工智能。

Sora并非首个文生视频大模型。2023年,Pika Labs发布首个产品Pika 1.0,能生成和编辑3D动画、动漫、卡通和电影,被视为零门槛“视频生成神器”。Runway、谷歌Lumiere视频AI生成模型、Stability AI的SVD1.1也相继问世。

不过,之前的AI 生成视频时间短,且易卡顿。Sora则弯道超车,单次能生成60秒的连贯视频。“之前的类似产品能生成10秒钟的视频,这次的Sora是1分钟,算是比较突出的量变。”智源研究院理事长、北京大学教授黄铁军说。

此外,Sora用户还可以输入图片转成视频,或更换视频中的元素,甚至把两个不相关的视频自然拼接起来,自主为视频补帧。这说明Sora能够模拟物理世界,并有一些预测能力。

据中信证券研报,如果后续持续扩大模型及训练集的规模,以Sora为基础的模型可能做到模拟世界,成为真正的“世界模型”。“通用人工智能要拥有世界模型,然后基于自己对世界模型的理解描述来行动。”黄铁军说,“Sora内部的这种世界模型的表达,在接近真实的程度方面有较大提高,可以说是走向通用人工智能的重要台阶。”

黄铁军指出,包括OpenAI在内的科研企业或机构,目的都是研究智能越来越强的基础大模型,运行起来会对各行各业产生影响,智能会成为越来越强的社会要素。

应届生领衔,“00后”入列

Sora“技惊四座”之后,其背后的团队也来到了聚光灯中心。

事实上,该研发团队成立时间还不到一年,成员背景多元,大多行事低调。这支集技术和艺术,博士和本科生,美国人、印度人和华人等为一体的团队,为Sora这一变革性AI模型的诞生提供了无限可能性。“不能用传统的高学历或资历来看这个事情,历史上很多创新往往是由年轻人以某种偶然方式实现的。”黄铁军对这支团队评价说。

Sora公布的研发成员名单显示,带头人有两位——威廉·皮伯斯和蒂姆·布鲁克斯。两人师出同门,均在2019年进入加州大学伯克利分校深造,并于2023年先后博士毕业。这两位应届博士生呕心沥血近一年时间,“每天睡得很少,高强度工作”,才有了Sora的问世。

皮伯斯青春洋溢,笑容很灿烂,喜欢自称“比尔”。像大多数博士一样,他戴眼镜,穿着清爽适体的衣服。在社交媒体上,这位技术大佬除了发布工作内容,时不时还会对一些公共政策发表意见。皮伯斯转发过很多美国政要的帖子,如2016年,皮伯斯就转发了特朗普的一条推文,大致内容是“选举团是民主的灾难”,皮伯斯评论道:“同意。”此次Sora成为关注焦点后,皮伯斯社交媒体的评论区几乎被挤爆,粉丝们纷纷发出“恭喜!”“伟大的工作!”“梦想成真了!”等赞叹。

Sora背后的“王炸”团队2
海上自行车比赛中,动物运动员骑着自行车。图为通过这些提示词,Sora生成视频的截图。
Sora背后的“王炸”团队3
Sora研发团队成员皮伯斯(左)与布鲁克斯(右)。

皮伯斯是个“学习小天才”,本科就读于麻省理工学院,主修计算机科学。他参加过多媒体制作软件开发商奥多比公司的暑期实习,还去过人工智能企业英伟达实习,研究计算机视觉。

尽管年纪尚轻,皮伯斯的业界经验却十分丰富。读博期间,他的研究成果多次入选国际图形学年会等学术会议。2022年5月,他到社交媒体巨头Meta实习,和同事合作发表了DiT模型。第二年,该成果被计算机视觉国际大会录用。也是在同一年,皮伯斯在加州大学伯克利分校的人工智能研究中心完成博士学业。DiT架构正是Sora的核心技术支撑之一。而Sora技术报告引用的关键文献《具有自注意力网络的可扩展扩散模型》也出自皮伯斯之手。从某种程度上说,皮伯斯为Sora带来了核心技术基础。

皮伯斯的博士师兄布鲁克斯早毕业了几个月。他本科就读于卡内基梅隆大学,主修逻辑与计算,辅修计算机科学,其间在脸书的软件工程部门实习了约四个月。2017年,布鲁克斯本科毕业,先到谷歌研究AI相机,之后到伯克利AI实验室读博,主要研究方向是图片与视频生成。读博期间,布鲁克斯研制出了AI图片编辑工具InstructPix2Pix——这是一项通过输入指令进行快速图像编辑的技术。这一研究经历使他在研发Sora时如虎添翼。2023年1月,布鲁克斯博士毕业,加入OpenAI,并相继参与了DALL-E和Sora的工作。

布鲁克斯多才多艺。他高中时拍的照片获过大奖。如今,他是一名专业摄影师,经常走进大自然拍动物。此外,他还在纽约百老汇灯塔剧院登台演出过,并赢得无伴奏表演节奏口技的国际奖项。他经常分享自己的文艺作品,还发帖称:“我对AI充满热情,幸运的是,这种热情与我对摄影、电影和音乐的爱好完美融合。”

在Sora项目中,布鲁克斯的研究重点是开发能模拟现实世界的大型生成模型。他的文艺爱好对Sora的开发大有裨益——作为一个生成视觉产品,Sora需要具有艺术和科技跨界背景的人。

Sora研发团队中这样的人不在少数,如来自旧金山艺术大学的乔·泰勒,他在页面设计、艺术指导等方面能力强,时不时还会去伯克利制作手工艺品。与其说是工程师,他更像一名艺术家。进入OpenAI前,他在多家公司负责过页面设计等工作,这些经验使他能在研发Sora时进行审美和设计上的赋能。

值得一提的是,团队里印度裔的阿迪蒂亚·拉梅什以及“00后”威尔·迪普都只有本科学历。拉梅什就读于纽约大学,在校期间就已经开始研究生成式模型。他毕业后本想继续深造,却意外地在OpenAI的暑期实习中被留下来,成了一名研究员。尽管拉梅什在学历方面“稍显逊色”,但在资历上是元老级的,算是Sora基础技术的奠基人之一,这让他有资格在整个团队中担任“执行制作人”。拉梅什主导了文字转图形模型DALL-E三代的研究,这三代模型的精确度和质量不断提高。

2023年,拉梅什在一次采访中表示:“人类能描述现实生活中可能遇到的任何情况,但也可以描述不可思议的情况或不可能发生的场景。我们想看看,如果训练一个模型,来从文本中生成图像,是否能够做到与人类一样的推断能力。”拉梅什的想法或多或少地影响了Sora的诞生,促成了Sora模拟现实的能力。他希望AI模型能够像人一样推理,这一期望已经在Sora上得到一定实现。

另一位本科生威尔·迪普2003年出生在西雅图,曾在阿根廷生活过,能说“半流利”的西班牙语。他半年前在一个节目中分享了自己的人生信条:“如果一件事要有人做,且没有其他人能做到,很好,那就由我来干。”这位“00后”的确是个实干派。早在高中时期,他就开始研发面向高中师生的即时通讯平台。该平台关闭后,迪普又招募团队研发了一个可视化工具,这家公司后来被社群管理与分析公司康索收购。2022年,迪普从密歇根大学计算机系本科毕业。同年7月,他加入OpenAI,并于2024年1月加入Sora项目组。

值得一提的是,迪普还是一位社交媒体达人,他2018年加入X平台,至今已发了5400余条推文,甚至曾分析过推文的传播规律:“最伟大的推文总有一种诗意,开头勾住你,然后让你进入一个阅读的圈,最后加上一个‘啪’式的响亮结尾。这感觉就像海明威一样。”

备受关注的还有Sora团队里的华人研究员。他们的公开信息不多,显得颇为神秘。王宇2010年在南京师范大学附属中学就读,2013年考入加州大学伯克利分校,从毕业后到今年1月加入OpenAI前,他有在Meta和Instagram(照片墙)任软件工程师及工程经理的经历。研究员靖礼是湖北人,高中时曾获第四十一届国际中学生物理学奥林匹克竞赛金牌,2014年毕业于北京大学物理系,后在麻省理工学院获博士学位,在Meta工作两年后加入OpenAI。此外,作为曦智科技的联合创始人,靖礼还入选2019年福布斯中国30位30岁以下精英榜。他的社交媒体主页写着:“我热衷于帮助人工智能了解现实世界并创造新的智能。”

中美差距扩大?

尽管Sora团队有几名华人,但类似成果并未出自我国。这是否凸显出中美高科技之间的差距?业内人士称,差距确实存在,但没想象中的那么大。

上一篇 点击页面呼出菜单 下一篇