Sora和人类，谁才是那个工具人？

Sora和人类，谁才是那个工具人？0

大年初七，中国观众正看贺岁档电影呢，OpenAI第三发重磅炸弹来袭——继ChatGPT、DALL·E之后，Sora，一个只要输入简单提示词就能生成1分钟高精度视频的AI模型，惊撼世人。

短短一年多，眼看着文生文、文生图、文生视频……作家、画家、电影家，都恍惚听到了饭碗落地的脆响。可是等一下，我们多年来渴望的AI，不该是科幻片里常见的全职服务员吗？

人类理想状态的AI，应该像《机器人瓦力》里的WALL·E一样会自动铲垃圾，像《机械姬》里的万能女管家一样包揽家务，像《上锁的房间》里的机器人一样会照顾病人，像《银翼杀手》里的复制人一样去外星开荒做苦力，像《机械战警》里的ED-209一样维护治安，像《西部世界》里有血有肉的牛仔一样端茶倒水提供娱乐服务，至少也得像《她》里的超级女声萨曼莎，能通过电波聊天解闷安抚人心……

结果倒好，铲垃圾的WALL·E没研发出来，GPT、DALL·E、Sora倒是前后脚杀到。合着只有人类是刚刚好进化到了必须工作必须做家务的阶段，而AI却能直接跳过柴米油盐，开启写作画画拍电影的文艺生涯是吗？

哪些活能派给Sora干？

AIGC（人工智能生产内容）时代就这么招呼都不打一声地降临了。Sora如一滴清水落入油锅，影视圈炸了，一则以喜，一则以惧。

喜的人，最近张口闭口都把四个字挂在嘴边：“降本增效”。从前的AI不太理解现实世界的物理规律，从前的AI生成的视频像gif动图，长度也只有几秒钟，而Sora和他们有质的不同，就像计算器遇到了计算机。

影视人已经开始盘算可以给Sora派哪些活干：最近美国《综艺》杂志上刊载了一张调查图——在影视和游戏行业从业者眼中，AI最擅长的活包括：为影视或游戏创建逼真音效、自动完成代码以协助游戏编程、为影视和游戏开发3D虚拟世界、为影视和游戏制作故事板、为影视作外语配音、编写游戏对话、为影视创建逼真的合成演员、写影视剧本……

从前拍电影的总羡慕作家只用一支笔就能写出千军万马，不像拍戏，要预算要摇人组局要置景要拍还要剪——现在Sora向世人展示了“傻瓜级”视频制作，仅仅输入几个关键词，就能产出精美画面。未来，我们普通人做一个白日梦，也可以交付给AI，生成刘慈欣+郭帆范儿的科幻大片，“你行你上”的戏谑庶几要成真。

其实早在Sora横空出世之前，AI在影视制作中的应用已不是新鲜事——简单粗暴的有“换头”，最近《繁花》热播，有网友做二创，用全香港演员班底换头制作了港版《繁花》：梁朝伟演阿宝，伍咏薇演李李，江美仪演玲子……看起来倒也别有一番味道。

国产科幻电影的巅峰之作《流浪地球2》里，大到“太空电梯”，小到给演员减龄，背后都有AI加持。电影里所采用的“虚拟摄影”技术也已经不是大片专利——横店影视城里有虚拟摄影棚，很多网剧都用上了这个成熟的技术。相比古早一无所有的“绿幕”背景，虚拟摄影能将现实场景投射到LED大屏上，让演员从“无实物表演”变得更有临场感。

放大来说，影视剧全产业链都已有AI的影子——前期策划评估、剧本创作、故事板、分镜图，到拍摄、特效、后期、修改，AI能降本增效的地方很多，区别只是，有些地方做得好，有些地方还在“一本正经地胡说八道”，需要人力监督。

贺岁片《热辣滚烫》最后的花絮里，导演贾玲晒出自己学画画的成果，因为她给《你好，李焕英》画的分镜头过于幼稚，此番除了减肥还潜心学画，结论是：画画比减肥100斤还难。不过将来贾玲导演应该不需要费劲学画了，因为在文生图、制作电影故事板和分镜头这块领域，AI已被证实能力超群。甚至好莱坞有电影商拿了真人绘制和AI绘制的故事板去问投资方意见，资方表示更认可AI作品。

编剧王策也曾使用GPT、文心一言、讯飞星火等AI模型来尝试剧本创作和评估，“输入4000字以内的剧本大纲，AI一般会给出一套特别工整的条目式评价，一二三四五，从故事内容、市场前景、观众体验方面给出意见。”不过在这方面，AI就不如绘图那么靠谱，“80%都是废话，人工去梳理调整所花的时间精力，跟我自己做也差不多。写剧本就更不行了，人写剧本用的是情感逻辑，AI是依靠数据算力。”但他也认为，给AI一点时间，未来能做的事会越来越多。

Sora会是影视圈的核武器吗？

ChatGPT问世的时候，被形容为新时代的“火和电”。那么Sora会不会是新时代的“蒸汽机”？在改变时代的同时，也会将很多人甩下时代的列车？

前不久好莱坞演员工会大罢工的诉求之一，就是要求限制人工智能代替演员。而科技流恐怖片《黑镜》早在去年就预见到了“数字明星”可能带来的可怕后果：女明星售出自己的肖像权给电影公司开发成AI主角，遭到反噬。

刚刚落幕的柏林电影节上，Sora同样成为国际电影人争论的焦点。关键词和中国影人如出一辙：兴奋又焦虑。据《好莱坞报道》，影人们反复提到AI可能对工作造成的威胁。有人已经给OpenAI的CEO 山姆·奥特曼（Sam Altman）喊话：“请不要把我变成一个无家可归的人。”未来3年内，好莱坞总计会有超过20万人的工作岗位会因为AI受到冲击。

当我们看到Sora目前生成的几十段1分钟样片：几千个纸飞机如同群鸟飞过丛林，红色小熊猫在培养皿的竹林里跃动，帆船在咖啡杯里经受暴风考验……就知道它对传统电影CG的冲击有多大。那些曾经需要高昂成本才能制作1秒的特效画面，现在直接就能生成1分钟。

看到Sora样片的第一眼，智元动力（北京）科技有限公司CEO王博的反应是：不可能吧？可再仔细一看OpenAI公布的与Sora相关的技术论文，看到几十个案例摆在面前，他的心情又变了：“有点被吓到，这真是颠覆行业的东西。”

以往说电影是“每秒24帧的真理”（戈达尔），是图像与图像连续播放的逻辑，但现在逻辑变了。

以往做3D需要三维建模，需要根据镜头要求制作关键帧，需要考虑连续性合理性和表演性，根据不同项目设置参数。但Sora有一套自己的生成逻辑，和GPT相似，是“预测下一帧”最可能出现什么样的画面。

由于目前Sora仅仅开放给极少数人群内测，王博对它还存有一个疑问：从文字提示词（prompt）到生成一段1分钟的视频，要花多长时间？他询问了一位海外获得内测资格的朋友，对方直接把测试结果发给他看：那是一幕真实性极高的草原画面，连太阳光晕的变化都非常逼真。而对方在提示词中强调的“使用手持摄像，肖像视图，带一点镜头光晕”，可以说匹配度也很高。

而他最想知道的“耗时多久”这个问题，朋友的回答是：实时。

“这听起来更恐怖了。”王博说。

在“互相伤害”的调侃里，原画师们感叹，这下子要失业的终于不只是原画师了。灯光、摄影、后期、特效，乃至明星，可能被团灭。

在最悲观的想象里，AI已经不再是双刃剑，而像是核武器，链式反应犹如灭霸的响指，搞不好噼啪一声，整个影视行业都没了——观众想看什么内容，自己生成就行——原著AI写，编剧AI来，电影AI拍。字生文，文生图，文生视频，再配上一副虚拟现实的眼镜，无景弗现，无远弗至。

Sora的友军泄了AI的老底

但是千百年的文明进程告诉我们，人类是靠乐观活下来的，所以，先别急着跪下喊爸爸，更别急着交网课学费——现在卖课割韭菜的人，99.9999%对Sora都是只闻其声，连个内测资格都没有就出来骗人。

Sora到底有没有超能力？判断这个问题，我们可以先从前Sora时代的AI入手。

最近，麻省理工大学主办了一个“AI for filmmaking”电影制作比赛，主题是“Space I call home”（我称之为家的那片宇宙）。这场比赛面向全世界开放，要求是“主要由AI完成”以及“视频时长在2分钟以上”，有不少中国人参赛，其中萧飞和王超导演的一段4分钟视频入围了技术奖。

在这段名为“什么地方你叫做家？”的短视频中，主创们从小女孩、红汽车、黑猫、一颗种子4个不同的视角传达对‘家’的理解，最终落脚在一句中国古代哲言：心安处，即是吾乡。

王超是“百夫长影像工作室”的创始人，在视频制作领域创业已有十几年，近年开始关注到AI。他向记者讲述了AI生成视频的全过程：“萧飞先以比赛主题创作了几段诗意的文字，之后的事情大部分由AI完成——GPT 3.5将文字变成旁白、将旁白翻译成英文，Midjourney 6.0把语言转化为88张分镜图，Magnific增强图像效果，PixVerse和Runway把图片转化为时长4分27秒（亦即6408帧）的视频，最后由Elevenlabs为英文旁白配音，加上开源版权的配乐，完成整个视频的制作。”

Sora和人类，谁才是那个工具人？2 — 由AI生成的短片图片，基本上成功完成了王超下达的所有指令。

在王超给GPT的指令中，他希望AI能将最后一句旁白翻译成莎士比亚式的诗意古英语；在给Midjourney的指令中，他希望AI可以在片头做出“末世废土风”，带一点手绘的感觉，而中间的叙事段落则要以普通人的视角切入，影像风格偏真实，“用33毫米电影镜头，采用Imax摄像机拍摄”；而到了图生视频阶段，又希望PixVerse为猫咪加上伸懒腰、眯眼睛的动态——结果AI都成功办到了。

不过，这并不代表过程中就不需要人工参与；相反，与人们想象中的“一键生成”相比，人力花费的时间长达8天。

“每个环节AI都会暴露一些问题。”王超解释说，“最大的问题是AI每一次的回应都带有随机性，我们戏称为‘开盲盒’：即使你每次都输入同样的提示词，它出来的结果依然会是不同的。”

比如他想生成一张黑猫的图片，第一次出来是绿眼睛，第二次出来是蓝眼睛；第一次瘦些，第二次胖些；女孩子身上穿的“白底碎花裙”，每次也都有细微差别。为了生成最终能用的88张分镜图，王超一共试了600多次才成功。“我们行话叫‘roll图’，就是图片生成出来，人工要手动挑选，挑选出来的图，很多细节如果不符合现实世界的物理规则，也要手动用笔刷修改：小猫的爪子怎么动，叶片如何随风摇摆，都要去设定参数。很多时间就花在这里。所以用AI做视频，虽然硬件成本是降低了，但体力成本是一点没减少。”

前Sora时代的AI并不高效，那么Sora能绕开这些原始问题吗？在王超看来，部分可以：“我们从样片中可以看到，Sora在光线、动力、风感等很多自然界的规律上，能够和现实世界匹配。它生成视频的长度和精度也远超当下技术，而且从单机位变成了多机位，且跳过了图片阶段，这些都是质的飞跃。”

但Sora的底层逻辑和GPT相似，因此也存在概率和随机性，它不是故意做得每次都不同，而是没法做到每次都相同。“Sora目前能做到的是60秒内的场景一致性和情节连贯性，再长就难说了。如果将来要应用在影视剧，麻烦就大了：你不能今天故事发生在这个场景，明天发生在那个吧？主角的脸，第一集是一个，第二集是另一个，那当然也不行啊。”