嗅觉灵敏的“AI猎人”

作者: 王秦怡

嗅觉灵敏的“AI猎人”0

2023年7月,世界人工智能大会上大模型应用火爆,观众拍摄展区AI生成的绘画作品。

从1979年到2023年,44年的进程中,我国的AI事业从发展理论到实践、从科技到产业、从前沿到热门。《环球人物》记者寻访了2023年活跃于AI领域的各种从业者,包括头部企业的核心研发人员、“双一流”高校人工智能专业的青年学子、因AI而生的新兴岗位员工,并向他们提出同一个问题:为什么进入AI行业?

回答很多,但绕不过那么一条路径:被震撼、被吸引,自动入局。他们相信:AI将以不可思议的速度,重塑我们的生活,比如,今年AI领域最前沿的成果——大模型。

三四秒内输出极为生动的AI画作,自主生成可以运行的标准代码,模仿鲁迅语气写成一篇小说……大模型让他们发现,AI不仅可以辅助人,还可以像人一样。科大讯飞副总裁、研究院院长刘聪是星火认知大模型诞生的关键人物,他告诉《环球人物》记者:“大模型在AI技术和应用上的历史意义,或许不亚于互联网和个人电脑的诞生。”

如果要形容这些AI从业者,那就是:他们像一群嗅觉高度灵敏的“AI猎人”,闻到一丝未来的气息,便孜孜不倦紧追猎物的踪迹。他们生机勃勃,充满野心,不愿错过“智力时代”的快车。

研究院院长:大模型的“智能涌现”

在科大讯飞研究院,从院长刘聪、副院长刘权,到研究院首席科学家魏思,都愿意把2023年这场研究风暴的起点向前延伸几个星期,放到2022年的12月7日。

那一天,在合肥高新区望江西路666号科大讯飞A4楼5层北侧的会议室里,投影上播放着刘权花了一周时间调研写的分析报告,PPT整整有100页,提出一个郑重的建议:借鉴国际上的思路,在重要认知智能任务中开始研究,并研制一个中等大规模预训练模型。

刘聪支持这个结论。这场会议结束了研究院内部此前的激辩:大模型究竟意味着什么?科大讯飞要不要跟进?

当然要跟进。此前人们已经熟悉的AI,都是把算法内嵌在音箱、新闻推荐、翻译客户端等各种已有的产品和功能里;大模型则第一次把大数据、大算力和大算法成功地结合起来,从而实现了在人与AI的互动中,AI能够“跨界”执行各种任务,即使那是专业领域的任务。

究其背后的逻辑,刘聪称之为大模型的“智能涌现”。对此,猎豹移动董事长傅盛有一个特别形象的说法,在他看来,AI的语义理解有两种技术路线:一种是学外语模式,“教你什么是主谓宾、定状从等,给它输入知识图谱,把整个世界的认知整理成各种枝节告诉计算机”。一种是学母语模式,“一个小孩子,不用教他语法规则,只要跟他说话就行,说着说着他就开口了”。大模型就是后者。当研发者使用更大的模型(参数规模从上亿提升到上百亿甚至上千亿)、给到更多的数据时,“它的逻辑能力一下就上来了”,傅盛说,这就像接龙一样,输入一些字,就能蹦出接下来的词。

“大模型的‘智能涌现’实际上推动了通用人工智能的技术阶跃,让大家看到了当前由弱人工智能迈向通用人工智能最有希望的路径。”刘聪向《环球人物》记者解释道,“我们已经经历了计算机生态系统、移动互联生态系统和搜索生态系统,推动了从硬件到软件、应用的一体化发展。大模型也将为海量应用赋能,反过来又促进自身的迭代,即将建立全新的产业生态。”

刘聪得出结论:“这一轮的新浪潮已来。”

刘聪是一个务实的人。乍看上去,他的经历如他所说,“很像一场说走就走的旅行”。2001年他进入中国科学技术大学学习,专业是电子信息工程。很多人记住了这个戴着眼镜、脸方方正正的青年,他不爱上课,也不爱上自习,但是很会考试,他的作业也一直是供全班同学参考的版本之一。2004年他进入中国科学技术大学的语音与语言信息处理国家工程实验室,后来有一天,他被叫到科大讯飞研究院面试实习生岗位,“结果稀里糊涂地闯入了AI的世界”。

刘聪很快发现,自己还是对做应用于实际的系统更感兴趣。由刘聪主导完成的业界首个中文语音识别系统,发展到如今,其系列产品已成为律师、记者等的必备工具。每当科研人员提出一个新构思时,刘聪喜欢给他们加个框,“你做出来我才说你牛”。

这种务实也延续到这次大模型的攻关研发中。2022年12月15日,在那场会议后一周,科大讯飞正式启动了“1+N”的大模型攻关。

“1就是通用认知智能大模型,N就是大模型在教育、办公、汽车、人机交互等各个领域的落地。研发通用大模型需要的投入很大,随着时间的拉长,投入还会更大,甚至投入了也不一定立刻变现。但对于科大讯飞来说,我们必须抓住那个1,从第一天开始,就是对标通用人工智能去做的。”刘聪形容2023年是把科大讯飞的资源“压上去”,因为“慢一步,错过的就是整个浪潮”。

对这场攻关的前景,刘聪有信心:“普通人会觉得,大模型是在2022年横空出世的,但其实,它背后是深度学习和自然语言理解技术的长期积淀。”

刘聪主导的中文语音识别系统是在2011年上线的,当时就是走深度学习的技术路线。同年,科大讯飞研究院开启了语义理解相关研究。“目前,我们在核心算法、行业数据、算力支撑方面都有深厚的基础。”刘聪告诉《环球人物》记者,以核心算法为例,变压器网络(Transformer)这种基于自注意力机制的深度学习算法,奠定了大模型预训练算法架构的基础,已经在科大讯飞的语音识别、机器翻译等任务中有了深入的应用。

不只是科大讯飞,中国AI技术和产业的迅速发展,离不开国家的大力支持和前瞻布局。早在2017年7月,国务院印发《新一代人工智能发展规划》,是首部国家层面的AI发展规划。同年11月,《新一代人工智能发展规划》暨重大科技项目在京启动,公布了首批国家新一代人工智能开放创新平台名单:依托百度公司、阿里云公司、腾讯公司和科大讯飞公司,分别建设自动驾驶、城市大脑、医疗影像、智能语音国家新一代人工智能开放创新平台。由此,这四家平台被称为“中国AI发展的四小龙”。

大学生:追着潮头跑

也是在2017年,21岁的梅朗在中国人民大学(以下简称人大)计算机科学与技术系读研。时代的风吹来,他能明显地感受到湖面的波动。“起初,深度学习算法的效果还比不上传统的机器学习,但到了2017年左右,它逐渐在很多传统任务上完成了追赶和超越,在搜索引擎、推荐系统、分类预测、文本挖掘等小模型的落地上做得很好、很新,特别多新的创意一直在冒出来。”

这种“新”带给梅朗巨大的兴奋,他至今怀念那段时光。同宿舍4名男生一聊起AI的发展,都是天马行空、滔滔不绝。“我们有一个共识,不管是工业界还是学术界,AI可供探索的方向、机会太多了。我们当时讨论了特别多问题,像什么样的AI发展模式是合理的,AI跟哪些行业结合更重要,什么模型类别更好用,等等。越讨论,越对这个方向感兴趣。”

机会来了。2019年3月,人工智能专业被列入新增审批本科专业名单,共有35所中国高校获得首批建设资格。翌年3月,获批高校增加180家,人大即在此名单里。

硕士毕业后,梅朗没有犹豫,选择在人大高瓴人工智能学院读博,研究方向是预训练语言模型与信息检索——其中,预训练语言模型成为主流方向不超过5年,却已经成为大模型开发的关键,其作用相当于给一座房子打地基。“基座大模型就像一个刚出生的孩子一样,已经被喂了一大堆语料库,但还需要复杂指令的引导、判别和奖励等机制,才能生成正确的、尽可能优质的内容。难点是让它理解语义层面的关联性,就像你要完成一个‘完形填空’,你问它《三国演义》中有什么样的斗智斗勇的情节,它可以给出‘数不胜数’,而不是‘不慌不忙’。这说明它的计算能力比较强了。”梅朗用尽可能通俗的语言解释道。

梅朗的室友们也都选择了读AI方向的博士,“有研究数据库系统的,有研究AI与多智能体博弈论的,还有研究AI与计算生物大模型的”。当年在宿舍里畅谈的年轻人,已经成为未来中国AI发展的后备军。

就读后,“开放”成了人工智能专业带给梅朗最深刻的感受。

嗅觉灵敏的“AI猎人”1
2023年10月,刘聪在第二十五届中国科协年会上发言。(受访者供图)
嗅觉灵敏的“AI猎人”2
2023年12月,梅朗接受本刊记者采访。(本刊记者 侯欣颖 / 摄)

人工智能专业注重理论,但也强调实践,而这意味着巨额的成本投入。“硬件投入是大头,而电费、购买数据、人工标注的费用也都不能小觑。”梅朗给《环球人物》记者确认了一组数据,以训练210亿参数规模的模型为例,约需450G的显卡存量,1张80G的A100显卡是10万多元,加上内存、计算机处理器等的花费,那硬件就要100万元。A100显卡的额定功率近500瓦,一个月的电费至少是5000元。业界甚至有一个真实的段子,搞AI的从不回家加班,因为家里的设备干不了“高级活”。

因此,在深度学习算法刚开始深入推进时,“大家想的是能不能先做一些有效的专用任务小模型”。梅朗说,随着越来越多不同行业有效的小模型的运行、高性能计算软件生态的建设、硬件设备算力的升级、预训练效果在下游任务的证实,到2019年,大模型就闯入国内一些前瞻人士的关注视野,像华商AI、智谱AI等。

也因此,国内高校人工智能专业基本上采用的是“校企合作”“产学结合”的模式。“我们得利用企业财大气粗的计算资源。”梅朗开玩笑道。他所在学院的人工智能联合实验室就是和中国联通合作成立的,未来媒体智能联合实验室则是和快手一起成立的,还有很多研究课题在腾讯、阿里、京东、字节等企业落地应用。

很少能在哪个行业看到,学界和业界的联系如此紧密。以往,理工科发表论文,最主要的渠道是投稿给学术期刊。“线上跟审稿人打交道,等发出来,半年、一年就过去了。”对于紧跟前沿技术、瞬息万变的AI学科来说,这简直无法想象。怎么办?梅朗指了指学院的会议室,半个月前,这里刚刚联合小米举办了“大模型:前沿技术与未来应用”学术论坛。“学术网站和院校,每年都会集中学界、业界现场开会,坐下来谈。很开放,会议不光分享研究类论文,还有工业类论文。”

在一些顶级会议的审稿机制上,组委会开放了整个评审过程。《环球人物》记者打开梅朗发来的网页链接,那是一个充满了专业术语的页面,一个接一个的陌生词——循环码、卷积网络、贝叶斯误差、神经云……普通人看不懂这些术语,但能看到页面里汇聚了各种意见,评审团的征询、作者的回复、其他人的评论,讨论具体到每一个数据的来源、每一道工序的合理性,很少有修饰词。梅朗也常常登录这个网页,看一看领域内的最新研究。

这种感觉就像是大家都在追着潮头跑,都担心落在了后面。“甚至很多最新成果不是发表在学术会议上。毕竟学术会议有时也会经过三四个月的审稿,我们好多老师是直接把数据、技术代码往业内的公开社区一丢,大家也会引用。有的组嘛,跟前沿跟得很快,会吐槽说:怎么今天这个方向全球又释放了十几篇文章?!”梅朗说。

嗅觉灵敏的“AI猎人”3
计算机视觉、语音技术等AI技术已经在人们的日常生活中广泛应用。图为2023年杭州亚残运会上,通过3D虚拟人技术、计算机视觉、机器翻译、语音技术打造的智能AI手语翻译官“小莫”。

上一篇 点击页面呼出菜单 下一篇