3.0世代——人工智能图像时代

图像内容的深度学习

利用人工智能凭空生成图像,2021年这似乎还处于技术变革的前夜,2022年这一切已经成为现实,在一年的时间里人工智能生成图像的技术日新月异,目前仍在不断变化发展中。人工智能技术已经发展了几十年,只是在最近几年里开始越来越实用化。人工智能生成图像的前提是人工智能深度学习,而深度学习的基础则是图像的数字化。

在过去的20多年中,网络中的数字图像呈指数级增长,为人工智能的深度学习提供了庞大的数据库。基于庞大的数字图像数据库,图像内容深度学习有了质的提升。在数字图像数据库的基础上,还有一项关键技术就是识别图像的内容,让人工智能可以区分图像内容中的各种元素,并能理解不同图像中相同元素的个性与共性。人工智能区分图像内容有两方面的训练,一个是理解自然语言,另一个是计算机视觉分析,这是一种文字与图像相匹配的训练方式。庞大的数字图像数据库与图像内容识别训练取得了关键的成效,加之人工智能技术预训练模型的优化,与公开测试获得的良好反馈,这就是人工智能生成图像技术在2022年开始爆发的原因。

3.0世代——人工智能图像时代0
1
3.0世代——人工智能图像时代1
2
3.0世代——人工智能图像时代2
3

Image

3.0世代——人工智能图像时代3

参考图:©安德烈亚斯·古斯基,《莱茵河 II》,1999,图片来源于佳士得

本页其他图片为人工智能技术生成,关键词:Andreas Gursky、Rhein II、photography,图1、2由 Midjourney 生成,图3由DreamStudio生成。

3.0世代——人工智能图像时代4
1
3.0世代——人工智能图像时代5
2
3.0世代——人工智能图像时代6
3
3.0世代——人工智能图像时代7
4

Image

3.0世代——人工智能图像时代8

参考图:©杰夫·沃尔,《死亡士兵的对话》,1992,图片来源于佳士得

本页其他图片为人工智能技术生成,关键词:Jeff Wall、Dead Troops Talk、photography,图 1—4 由 Midjourney 生成,图 5—6 由DreamStudio 生成。

人工智能生成图像

庞大的数字图像数据库与图像内容识别训练的成果,使人工智能可以根据用户描述生成图像。描述通常分为两种,一种是文字,另一种是图像。前者是人工智能根据文字的意思,从深度学习的数据中寻找与之对应的图像元素并生成新的图像,后者则是根据用户上传的图像进行理解和分析画面元素,然后生成新的图像。二者最关键的一点就是人工智能可以脱离照相机等工具,参考文字或图像的内容,凭空生成新的图像。如果描述的内容比较复杂,涉及多个元素,人工智能会根据描述中涉及到的元素,一一配齐并把这些组合到同一张图像之中。

在2022年一整年的时间里,Disco Diffusion、DALL-E 2、Midjourney和 Stable  Diffusion先后诞生,Disco Diffusion已经迭代成 Stable Diffusion。DALL-E2、Midj ourney和StableDiffusion 各具特色,目前都在测试阶段,且主要以生成绘画为主。但是人工智能生成图像技术在过去一年之内数次更新迭代,未来生成摄影作品只是时间问题。本部分的图片由笔者通过 Midjourney 和基于 Stable Diffusion 开源算法的 DreamStudio 生成,所采用的关键词为摄影史上比较著名的艺术作品的作者名字、作品标题和一个固定的单词——摄影(photography)。选择这些关键词的初衷为,作者名字定义图像风格,作品标题定义图像内容,以及摄影定义画面效果是偏向照片的写实风格。

最终生成的图像内容包括场景和肖像元素,从中可以看出人工智能生成图像的能力是可以分析理解文字描述,并据此生成图像内容,不同元素也可以组合到同一画面中,但是相比真实的照片来说,效果还是有明显差距。因为目前的技术主要是以生成绘画为主,虽然笔者加了摄影作为关键词,生成的图像也确实偏向真实,但是仔细观察细节还是能发现明显类似于三维建模的效果,一些人体器官也比较怪异,比如混乱的五官和肢体。基于本次测试结果,显示目前希望用文字生成以假乱真的照片还不太现实,但也能体现人工智能技术生成图像的潜力,假以时日必定能够获得更好的效果。

3.0世代——人工智能图像时代9
5
3.0世代——人工智能图像时代10
6
3.0世代——人工智能图像时代11

Image

3.0世代——人工智能图像时代12

参考图:©理查德·普林斯,《无题(牛仔)》,1989,图片来源于佳士得

本页其他图片为人工智能技术生成,关键词:Richard Prince、Untitled (Cowboy)、photography,均由Midjourney 生成。

未来的应用场景

2022年, 游戏开发者杰森· 艾伦(Jason M. Allen)利用人工智能制作了一幅名为《太空歌剧院》(Théâtre D’opéra Spatial)的绘画,获得了美国科罗拉多博览会年度艺术比赛的一等奖。获奖之后,杰森·艾伦坦言这是他利用人工智能创作的作品。创作过程使用Midjourney 生成图像,然后导入 Gigapixel AI 提高作品的分辨率,第三步使用Photoshop修饰,最后就是将图像印制在画布上。根据比赛规则,评委们认为杰森·艾伦的作品是符合要求的。

正如摄影术诞生时,有人感叹绘画死了一样,目前人工智能技术可以通过描述生成绘画,在一些人眼里,绘画似乎又要死了。其实不然,摄影术和人工智能都是艺术家的创作工具而已。摄影没有杀死绘画,绘画反而开辟了新的艺术道路,人工智能也不会杀死绘画,而是提供了一种生成图像素材的渠道,艺术家也可以在素材的基础上再创作。

目前来看,一个可行的应用场景,便是利用人工智能制作插画之类的商业图像库。使用人工智能生成的图像可以降低插画的生产成本,对于小型公司来说是不错的选择。另外,既然人工智能可以生成图像,那么利用它生成其他内容,比如声音、视频、三维建模之类的,也是未来可期的。

毫无疑问,我们正在进入人工智能图像的时代,但这并不意味着照相机就要废弃了,数字图像和人工智能图像是当下两种不同的获取图像的方法,目前还不能相互取代。能够使用不同的工具创作,可以增添创作的便利,我们能做的就是关注和学习,并尝试使用最新的图像技术创作作品。

3.0世代——人工智能图像时代13
3.0世代——人工智能图像时代14
3.0世代——人工智能图像时代15

技术迭代的焦虑与反思

关于人工智能技术能否取代个体劳动的问题,虽然短时间内还难以形成气候,但显然这样的趋势已经在制造焦虑。在摄影领域,笔者认为目前还不必太过焦虑,除了技术还不成熟之外,最重要的一点是,人工智能生成的照片越真实,其实也意味着照片越虚假。毕竟那不是现实发生的事,关于现实的照片,目前来看还是需要靠实际拍摄。照片至今还是记录人类历史的一种必要方式,历史不能伪造,所以未来历史中的现实不可能由人工智能技术生成。但商业照片就是另一种情况了,本来商业照片中就充满摆拍、置景、拼贴等加工方式,人工智能技术恰恰可以简化成本和流程,提高生产效率。使用人工智能技术运营一个商业图像库并非难事,商业图像领域势必会经历一次工作流程和成本的革新。

Image

3.0世代——人工智能图像时代16
3.0世代——人工智能图像时代17

上一篇 点击页面呼出菜单 下一篇