⽣成式⼈⼯智能正在改变⼀切当炒作消失会剩下什么︖
OpenAI很明显知道自己在做什么。2021年底,只有几个人的研究小组在OpenAI旧金山办公室讨论了一个想法,随后他们创造了OpenAI的文本到图像模型的新版本:DALL-E。
这是一个可以将简短的文字描述转变为图片的人工智能模型,你可以让它生成梵高画的狐狸,或者是披萨做的柯基。

OpenAI的联合创始人和首席执行官山姆·奥特曼告诉《麻省理工科技评论》:“我们会创造一些新东西,然后我们都必须体验它一段时间,几乎总是这样。我们要试图弄清楚它将是什么样子的,被用于做什么。”
但这次不行。当他们修改模型时,每个参与其中的人都意识到这是一件特别的事情。“很明显,这就是我们的产品,”山姆说,“(这一点)没有任何争论,我们甚至从来没有开会讨论过。”
但没有人能够预测这款产品将会引起多大的轰动。山姆说:“这是第一个被每个普通用户带火的人工智能技术。”
DALL-E2在2022年4月发布。5月,谷歌官宣了(但没有发布)它自己的两种文本到图像的模型,Imagen和Parti。

然后是Midjourney公司推出了一个为艺术家制作的文本到图像模型。8月,英国初创公司StabilityAI向公众免费发布了开源模型StableDiffusion。
尝鲜的用户蜂拥而至。OpenAI在短短2个半月内就吸引了100万用户。超过100万人开始通过付费服务DreamStudio使用StableDiffusion;更多的人通过第三方应用程序使用StableDiffusion,或在他们自己的电脑上安装免费版本。
StabilityAI的创始人易马德·莫斯塔克表示,他的目标是拥有10亿用户。
在2022年10月,我们看到了第二轮热潮:谷歌、Meta等公司发布了文本到视频模型,可以创建短视频、动画和3D图像。

这种发展速度令人惊讶。在短短几个月的时间里,这项技术登上了媒体头条和杂志封面,社交媒体上到处都是讨论的人和有关的话题,话题的热度高居不下,但同时也引发了强烈的反弹。
伦敦国王学院研究计算创造力的人工智能研究员迈克·库克说:“这项技术令人惊叹,它很有趣,这是新技术该有的样子。
但它发展得如此之快,以至于你的理解根本赶不上它的更新速度。我认为,整个社会要花上一段时间来消化它。”
艺术家们陷入了这个时代最大的动荡之中。有些人会失去工作;有些人会找到新的机会。一些人选择诉诸法律,因为他们认为,训练模型所用的图像被滥用了。
曾在梦工厂等视觉效果工作室工作过的数字艺术家,唐·艾伦·史蒂文森三世说:“对于像我这样接受过技术训练的人来说,这非常可怕的。
“我会说天呐,这是我的全部工作,”他说,“我在使用DALL-E的第一个月就陷入了生存危机。”
尽管一些人仍沉浸在震惊之中,但包括史蒂文森在内的许多人正在寻找使用这些工具的方法,并预测接下来会发生什么。
令人兴奋的事实是,我们不知道接下来会发生什么。原因是,虽然创意产业从娱乐媒体到时尚、建筑、市场营销等,将最先感受到影响,但这项技术将把创造力赋予每个人。
从长远来看,它可以用于产生几乎任何东西的设计,从新型药物到服装和建筑。生成式的革命已经开始。
神奇的⾰命
对于曾从事电子游戏和电视节目制作的数字创作者查德·纳尔逊来说,从文本到图像的模型是一个千载难逢的突破。
他说:“这项技术可以让你在几秒钟内将脑海里的灵光一闪变成一个原型。你创造和探索的速度是革命性的——超过了我30年来经历过的任何一个时刻。”
在模型刚出的几周里,人们就开始使用这些工具进行原型创造和头脑风暴,从杂志插图和营销布局到电子游戏环境和电影概念。
人们制作了同人作品,甚至是整本漫画书,并在网上不断分享。山姆甚至用DALL-E来设计运动鞋,就在他把设计图发在推特上之后,有人为他制作了一双。

纹身艺术师兼计算机科学家艾米·史密斯一直在使用DALL-E模型来设计纹身。“你可以和客户一起坐下来,一起进行设计,”她说,“我们正处于一场革命之中。”
数字和视频艺术家保罗·特里洛认为,这项技术将使关于视觉效果的头脑风暴更容易、更快速。
“人们都在说,这是特效艺术家或时装设计师的末日,”他说,“我不认为这是任何职业的终局。相反,我认为它意味着我们不必在晚上和周末加班。”
图片公司则采取了不同的立场。Getty已经禁止了人工智能生成的图像;Shutterstock公司已经与OpenAI签署了一项协议,将DALL-E嵌入其网站,并表示将成立一个基金,对那些成果被模型当作训练数据的艺术家进行补偿。
史蒂文森说,他在动画工作室制作电影的每一步都尝试了DALL-E,包括角色和环境的设计。
有了DALL-E,他能够在几分钟内完成多个部门的工作。他说:“对于那些因为技术太贵或太复杂而无法从事创造工作的人来说,这是令人振奋的。但如果你不愿意接受改变,那就太可怕了。”
纳尔逊认为未来还会有更多的事情发生。最终,他认为这项技术不仅会被媒体巨头所接受,也会被建筑和设计公司所接受。不过,他认为人工智能模型还没有准备好。
“现在就像你有一个小魔法盒子,一个小巫师,”他说。如果你只是想继续生成图像,那足够了,但如果你需要一个创造性的合作伙伴,那还不够。
他说:“如果我想让它创造故事和构建世界,它需要对我正在创造的东西有更多的认知。”
这就是问题所在:这些模型仍然不知道自己在做什么。
⿊盒⼦
为了了解原因,让我们看看这些程序是如何工作的。从外部来看,模型是一个黑盒子。
你输入一段简短的文字描述,又可以被称为一段提示,然后等待几秒钟,你就会得到一些(或多或少)符合提示的图像。
你可能不得不调整你的文本,让模型产生一些更接近你的想法的东西,或者不断打磨一个偶然得到的结果,这已被称为“提示工程”。
为了获得最细致的、样式独特的图像,一段描述可以多达几百个单词,而选择正确的单词已经成为一项有价值的技能。相关的网络市场如雨后春笋般涌现,专门买卖那些能够产生理想结果的文字提示和描述。
文字提示可以包含指示模型选择特定风格的短语,比如“ArtStation的流行趋势”,这是在告诉人工智能模仿ArtStation网站上流行的图像(通常是非常详细的)风格,这个网站上有成千上万的艺术家展示他们的作品;而“虚幻引擎”则会激活类似电子游戏的图像风格。
用户甚至可以输入特定艺术家的名字,让人工智能制作出模仿他们风格的仿制品。当然,这让一些艺术家非常不高兴。
外表之下,文本到图像模型有两个关键组成部分:一个经过训练的、将图像与描述图像的文本配对的神经网络,以及另一个被训练成从零开始生成图像的神经网络。其核心思想是让第二个神经网络生成能让第一个神经网络接受的图像。
新模型背后的重大突破在于图像生成的方式。DALL-E模型的第一个版本使用了OpenAI语言模型GPT-3背后的技术,通过预测图像中的下一个像素来生成图像,就像预测句子中的单词一样。这可以实现目的,但效果不好。
“它没有给人一种神奇的感觉,”山姆说,“它能运转本身就很神奇了。”
相反,DALL-E2模型使用了一种叫做扩散模型的东西。扩散模型是一种神经网络,经过训练后,它可以通过去除训练过程中添加的像素化噪声来清理图像。
这个过程包括拿到一张图片,改变其中的几个像素并重复多次,直到原始图像被擦除,最后只剩下随机的像素。
“如果你这样做一千次,最终图像看起来就像是没有信号的电视上面的雪花,”比约恩·欧蒙说。他在德国慕尼黑大学研究生成式人工智能,帮助建立了StableDiffusion背后的扩散模型。
然后训练一个神经网络逆转这个过程,并预测给定图像的低像素化版本会是什么样子。结果是如果你给一个扩散模型一堆像素,它会尝试生成稍微更干净的图像。
把清理后的图像放回去,模型就会产生更干净的图像。当这个过程足够长,模型就可以把雪花图像变成高分辨率图片。
文本到图像模型的诀窍是,这个过程是由语言模型引导的,该语言模型负责将文字提示与扩散模型产生的图像相匹配。这将扩散模型推向了语言模型认为的匹配度更高的图像。
但这些模型并没有摆脱文本和图像之间的联系。如今,大多数文本到图像的模型都是在一个名为LAION的大型数据集上进行训练的,该数据集包含了从互联网上提取的数十亿组文本和图像。
这意味着你从文本到图像模型中得到的图像,是真实网络世界的抽象,它包含了被偏见(和色情)扭曲的网络内容。
还有一点值得注意,目前最流行的两种模型,DALL-E2和StableDiffusion之间有一个微小但关键的区别。
DALL-E2的扩散模型适用于全尺寸图像,而StableDiffusion则使用了一种由欧蒙和他的同事发明的被称为“潜在扩散”的技术。
后者作用于神经网络中编码图像的压缩版本,即所谓的“隐空间”中,其中只保留了图像的基本特征。
这意味着StableDiffusion需要的算力更少。与运行在OpenAI高性能服务器上的DALL-E2模型不同,StableDiffusion可以在性能尚可的个人电脑上运行。
创造力的爆炸式增长和新应用程序的快速开发,在很大程度上是由于StableDiffusion不仅是开源的,程序员可以自由地改变它,在开源代码的基础上构建它并以此赚钱,而且它足够轻巧,人们在家就能运行。
重新定义创造⼒
对一些人来说,这些模型是向通用人工智能(AGI)迈进的一步。AGI指的是未来具有通用或甚至类似人类智能的人工智能,当然,你也可以认为它是一个被过度炒作的概念。OpenAI已经明确了其实现AGI的目标。
出于这个原因,OpenAI的联合创始人山姆并不关心DALL-E2现在正与大量类似的工具竞争,其中一些是免费的。
“我们是要制造AGI的,而不是图像生成器,”他说,“我们的工具将契合一个更广泛的产品路线图。这只是AGI能做的一件小事。”
这是一个乐观的想法,因为许多专家认为,今天的人工智能永远不会达到那个水平。就基本智能而言,文本到图像的模型并不比支撑它们的语言模型更智能。