Sora和人类,谁才是那个工具人?

作者: 阙政

Sora和人类,谁才是那个工具人?0

大年初七,中国观众正看贺岁档电影呢,OpenAI第三发重磅炸弹来袭——继ChatGPT、DALL·E之后,Sora,一个只要输入简单提示词就能生成1分钟高精度视频的AI模型,惊撼世人。

短短一年多,眼看着文生文、文生图、文生视频……作家、画家、电影家,都恍惚听到了饭碗落地的脆响。可是等一下,我们多年来渴望的AI,不该是科幻片里常见的全职服务员吗?

人类理想状态的AI,应该像《机器人瓦力》里的WALL·E一样会自动铲垃圾,像《机械姬》里的万能女管家一样包揽家务,像《上锁的房间》里的机器人一样会照顾病人,像《银翼杀手》里的复制人一样去外星开荒做苦力,像《机械战警》里的ED-209一样维护治安,像《西部世界》里有血有肉的牛仔一样端茶倒水提供娱乐服务,至少也得像《她》里的超级女声萨曼莎,能通过电波聊天解闷安抚人心……

结果倒好,铲垃圾的WALL·E没研发出来,GPT、DALL·E、Sora倒是前后脚杀到。合着只有人类是刚刚好进化到了必须工作必须做家务的阶段,而AI却能直接跳过柴米油盐,开启写作画画拍电影的文艺生涯是吗?

哪些活能派给Sora干?

AIGC(人工智能生产内容)时代就这么招呼都不打一声地降临了。Sora如一滴清水落入油锅,影视圈炸了,一则以喜,一则以惧。

喜的人,最近张口闭口都把四个字挂在嘴边:“降本增效”。从前的AI不太理解现实世界的物理规律,从前的AI生成的视频像gif动图,长度也只有几秒钟,而Sora和他们有质的不同,就像计算器遇到了计算机。

影视人已经开始盘算可以给Sora派哪些活干:最近美国《综艺》杂志上刊载了一张调查图——在影视和游戏行业从业者眼中,AI最擅长的活包括:为影视或游戏创建逼真音效、自动完成代码以协助游戏编程、为影视和游戏开发3D虚拟世界、为影视和游戏制作故事板、为影视作外语配音、编写游戏对话、为影视创建逼真的合成演员、写影视剧本……

从前拍电影的总羡慕作家只用一支笔就能写出千军万马,不像拍戏,要预算要摇人组局要置景要拍还要剪——现在Sora向世人展示了“傻瓜级”视频制作,仅仅输入几个关键词,就能产出精美画面。未来,我们普通人做一个白日梦,也可以交付给AI,生成刘慈欣+郭帆范儿的科幻大片,“你行你上”的戏谑庶几要成真。

其实早在Sora横空出世之前,AI在影视制作中的应用已不是新鲜事——简单粗暴的有“换头”,最近《繁花》热播,有网友做二创,用全香港演员班底换头制作了港版《繁花》:梁朝伟演阿宝,伍咏薇演李李,江美仪演玲子……看起来倒也别有一番味道。

国产科幻电影的巅峰之作《流浪地球2》里,大到“太空电梯”,小到给演员减龄,背后都有AI加持。电影里所采用的“虚拟摄影”技术也已经不是大片专利——横店影视城里有虚拟摄影棚,很多网剧都用上了这个成熟的技术。相比古早一无所有的“绿幕”背景,虚拟摄影能将现实场景投射到LED大屏上,让演员从“无实物表演”变得更有临场感。

放大来说,影视剧全产业链都已有AI的影子——前期策划评估、剧本创作、故事板、分镜图,到拍摄、特效、后期、修改,AI能降本增效的地方很多,区别只是,有些地方做得好,有些地方还在“一本正经地胡说八道”,需要人力监督。

贺岁片《热辣滚烫》最后的花絮里,导演贾玲晒出自己学画画的成果,因为她给《你好,李焕英》画的分镜头过于幼稚,此番除了减肥还潜心学画,结论是:画画比减肥100斤还难。不过将来贾玲导演应该不需要费劲学画了,因为在文生图、制作电影故事板和分镜头这块领域,AI已被证实能力超群。甚至好莱坞有电影商拿了真人绘制和AI绘制的故事板去问投资方意见,资方表示更认可AI作品。

编剧王策也曾使用GPT、文心一言、讯飞星火等AI模型来尝试剧本创作和评估,“输入4000字以内的剧本大纲,AI一般会给出一套特别工整的条目式评价,一二三四五,从故事内容、市场前景、观众体验方面给出意见。”不过在这方面,AI就不如绘图那么靠谱,“80%都是废话,人工去梳理调整所花的时间精力,跟我自己做也差不多。写剧本就更不行了,人写剧本用的是情感逻辑,AI是依靠数据算力。”但他也认为,给AI一点时间,未来能做的事会越来越多。

Sora会是影视圈的核武器吗?

ChatGPT问世的时候,被形容为新时代的“火和电”。那么Sora会不会是新时代的“蒸汽机”?在改变时代的同时,也会将很多人甩下时代的列车?

前不久好莱坞演员工会大罢工的诉求之一,就是要求限制人工智能代替演员。而科技流恐怖片《黑镜》早在去年就预见到了“数字明星”可能带来的可怕后果:女明星售出自己的肖像权给电影公司开发成AI主角,遭到反噬。

刚刚落幕的柏林电影节上,Sora同样成为国际电影人争论的焦点。关键词和中国影人如出一辙:兴奋又焦虑。据《好莱坞报道》,影人们反复提到AI可能对工作造成的威胁。有人已经给OpenAI的CEO 山姆·奥特曼(Sam Altman)喊话:“请不要把我变成一个无家可归的人。”未来3年内,好莱坞总计会有超过20万人的工作岗位会因为AI受到冲击。

当我们看到Sora目前生成的几十段1分钟样片:几千个纸飞机如同群鸟飞过丛林,红色小熊猫在培养皿的竹林里跃动,帆船在咖啡杯里经受暴风考验……就知道它对传统电影CG的冲击有多大。那些曾经需要高昂成本才能制作1秒的特效画面,现在直接就能生成1分钟。

看到Sora样片的第一眼,智元动力(北京)科技有限公司CEO王博的反应是:不可能吧?可再仔细一看OpenAI公布的与Sora相关的技术论文,看到几十个案例摆在面前,他的心情又变了:“有点被吓到,这真是颠覆行业的东西。”

以往说电影是“每秒24帧的真理”(戈达尔),是图像与图像连续播放的逻辑,但现在逻辑变了。

以往做3D需要三维建模,需要根据镜头要求制作关键帧,需要考虑连续性合理性和表演性,根据不同项目设置参数。但Sora有一套自己的生成逻辑,和GPT相似,是“预测下一帧”最可能出现什么样的画面。

由于目前Sora仅仅开放给极少数人群内测,王博对它还存有一个疑问:从文字提示词(prompt)到生成一段1分钟的视频,要花多长时间?他询问了一位海外获得内测资格的朋友,对方直接把测试结果发给他看:那是一幕真实性极高的草原画面,连太阳光晕的变化都非常逼真。而对方在提示词中强调的“使用手持摄像,肖像视图,带一点镜头光晕”,可以说匹配度也很高。

而他最想知道的“耗时多久”这个问题,朋友的回答是:实时。

“这听起来更恐怖了。”王博说。

在“互相伤害”的调侃里,原画师们感叹,这下子要失业的终于不只是原画师了。灯光、摄影、后期、特效,乃至明星,可能被团灭。

在最悲观的想象里,AI已经不再是双刃剑,而像是核武器,链式反应犹如灭霸的响指,搞不好噼啪一声,整个影视行业都没了——观众想看什么内容,自己生成就行——原著AI写,编剧AI来,电影AI拍。字生文,文生图,文生视频,再配上一副虚拟现实的眼镜,无景弗现,无远弗至。

Sora的友军泄了AI的老底

但是千百年的文明进程告诉我们,人类是靠乐观活下来的,所以,先别急着跪下喊爸爸,更别急着交网课学费——现在卖课割韭菜的人,99.9999%对Sora都是只闻其声,连个内测资格都没有就出来骗人。

Sora到底有没有超能力?判断这个问题,我们可以先从前Sora时代的AI入手。

最近,麻省理工大学主办了一个“AI for filmmaking”电影制作比赛,主题是“Space I call home”(我称之为家的那片宇宙)。这场比赛面向全世界开放,要求是“主要由AI完成”以及“视频时长在2分钟以上”,有不少中国人参赛,其中萧飞和王超导演的一段4分钟视频入围了技术奖。

在这段名为“什么地方你叫做家?”的短视频中,主创们从小女孩、红汽车、黑猫、一颗种子4个不同的视角传达对‘家’的理解,最终落脚在一句中国古代哲言:心安处,即是吾乡。

王超是“百夫长影像工作室”的创始人,在视频制作领域创业已有十几年,近年开始关注到AI。他向记者讲述了AI生成视频的全过程:“萧飞先以比赛主题创作了几段诗意的文字,之后的事情大部分由AI完成——GPT 3.5将文字变成旁白、将旁白翻译成英文,Midjourney 6.0把语言转化为88张分镜图,Magnific增强图像效果,PixVerse和Runway把图片转化为时长4分27秒(亦即6408帧)的视频,最后由Elevenlabs为英文旁白配音,加上开源版权的配乐,完成整个视频的制作。”

Sora和人类,谁才是那个工具人?1
王超制作的短片,图片都由AI 生成。
Sora和人类,谁才是那个工具人?2
由AI生成的短片图片,基本上成功完成了王超下达的所有指令。
Sora和人类,谁才是那个工具人?3

在王超给GPT的指令中,他希望AI能将最后一句旁白翻译成莎士比亚式的诗意古英语;在给Midjourney的指令中,他希望AI可以在片头做出“末世废土风”,带一点手绘的感觉,而中间的叙事段落则要以普通人的视角切入,影像风格偏真实,“用33毫米电影镜头,采用Imax摄像机拍摄”;而到了图生视频阶段,又希望PixVerse为猫咪加上伸懒腰、眯眼睛的动态——结果AI都成功办到了。

不过,这并不代表过程中就不需要人工参与;相反,与人们想象中的“一键生成”相比,人力花费的时间长达8天。

“每个环节AI都会暴露一些问题。”王超解释说,“最大的问题是AI每一次的回应都带有随机性,我们戏称为‘开盲盒’:即使你每次都输入同样的提示词,它出来的结果依然会是不同的。”

比如他想生成一张黑猫的图片,第一次出来是绿眼睛,第二次出来是蓝眼睛;第一次瘦些,第二次胖些;女孩子身上穿的“白底碎花裙”,每次也都有细微差别。为了生成最终能用的88张分镜图,王超一共试了600多次才成功。“我们行话叫‘roll图’,就是图片生成出来,人工要手动挑选,挑选出来的图,很多细节如果不符合现实世界的物理规则,也要手动用笔刷修改:小猫的爪子怎么动,叶片如何随风摇摆,都要去设定参数。很多时间就花在这里。所以用AI做视频,虽然硬件成本是降低了,但体力成本是一点没减少。”

前Sora时代的AI并不高效,那么Sora能绕开这些原始问题吗?在王超看来,部分可以:“我们从样片中可以看到,Sora在光线、动力、风感等很多自然界的规律上,能够和现实世界匹配。它生成视频的长度和精度也远超当下技术,而且从单机位变成了多机位,且跳过了图片阶段,这些都是质的飞跃。”

但Sora的底层逻辑和GPT相似,因此也存在概率和随机性,它不是故意做得每次都不同,而是没法做到每次都相同。“Sora目前能做到的是60秒内的场景一致性和情节连贯性,再长就难说了。如果将来要应用在影视剧,麻烦就大了:你不能今天故事发生在这个场景,明天发生在那个吧?主角的脸,第一集是一个,第二集是另一个,那当然也不行啊。”

上一篇 点击页面呼出菜单 下一篇