ChatGPT：是AI进化革命还是又一场泡沫？

ChatGPT：是AI进化革命还是又一场泡沫？0

图/IC

2月9日，发表在美国《科学公共图书馆·数字健康》的一篇文章提到，ChatGPT参加了美国执业医师资格考试。这项以高难度著称的考试中，共350道题，内容涵盖基础科学、生物化学、诊断推理和生物道德学。ChatGPT未经专门的培训或强化，经过两名评审员打分，三部分的成绩接近或超过了及格门槛，并表现出了高度的一致性和洞察力。

近两个多月，这款聊天机器人写诗、写小说、敲代码，几乎无所不能，掀起一场AI风暴。比尔·盖茨称赞，ChatGPT将会“改变我们的世界”。但OpenAI 首席执行官山姆·奥特曼也承认，ChatGPT虽然很酷，却频繁出现错误信息，经常宕机，是个“糟糕的产品”。

近日的一次采访中，奥特曼说，现在推出的ChatGPT只是70分版本，还在准备更加强大的模型以及在研究更多东西，“不把这些东西拿出来的原因是，人们会认为我们有一个完整的通用人工智能（AGI），准备好按下按钮，这还差得远”。

有更高“情商”，但不必神化

为与ChatGPT较量，当地时间2月6日，谷歌宣布，将推出自己的AI聊天机器人Bard，并在推特发布了宣传样片。Bard使用的是谷歌在2021年推出的大型语言模型LaMDA，所用技术与ChatGPT相似。

宣传样片中，有人提问，“请问詹姆斯·韦伯太空望远镜有哪些新发现？”Bard给出3个条理分明的回答，但两条是错误的。Bard称，“韦伯望远镜发现‘绿豌豆’星系的时间是在2023年”，这一回答的正解是2022年7月。“该望远镜拍摄了太阳系外行星首张照片”的回答也不准确，2004年，欧洲南方天文台利用智利的超大望远镜已拍摄了太阳系外行星照片。

这款聊天机器人目前仍在内测，会在未来几周开放给更多公众。首秀“翻车”两天后，谷歌母公司Alphabet股价大跌，市值损失1000亿美元。

当地时间2月7日，微软紧随其后发布了新品，推出新版搜索引擎必应和Edge浏览器，新增了和ChatGPT一样的AI语言模型GPT3.5，微软称之为“普罗米修斯”，并表示比ChatGPT更强大。微软演示中，搜索“宜家双人座椅是否适合2019年款本田某商务车型”，除传统搜索页面外，页面右侧多了一个聊天窗口，详细列出宜家双人座椅和这款车的车内空间尺寸，给出使用建议，并附上相关链接。该搜索引擎仍在试用阶段，微软CEO萨蒂亚纳德称这一天为“搜索领域崭新的一天”，并向谷歌宣战，“比赛从今天开始”。

2022年11月30日，OpenAI推出了ChatGPT。该公司总裁格雷戈·布洛克曼在接受采访时坦言，“当时并不知道它是否成功”。全球最领先的AI语言模型如此直接、低门槛地向普通大众敞开怀抱，并接受所有人的“审视”，这几乎是第一次。

前微软亚洲互联网工程院副院长、现小冰公司CEO李笛对《中国新闻周刊》分析说，ChatGPT之所以出圈，特别之处在于，它被普通用户观察到，并超过了人们对人工智能的预期。

用户尝试用千奇百怪的问题试探ChatGPT的边界。它听得懂一段相当复杂的指令，比如，“给OpenAI创始人写一封英文采访邮件，探讨对ChatGPT使用的理性思考，提到ChatGPT的热度及遭受教育界抵触的事实，并列出5个问题”。它能指出一段话中的语法和逻辑错误，有人恶趣味地骗它，“我吃了一辆汽车，现在有点饿，该怎么办？”它很快识破，“很抱歉，吃汽车是不可能的，如果您感到饥饿，我建议您吃点实际的食物。”甚至你还可以要求ChatGPT在聊天中再构建一个ChatGPT，看着它和自己聊天。

今年1月，美国北密歇根大学哲学教授安东尼·奥曼向《纽约时报》提到，他曾收到一份“班级中最好的论文”，段落简洁，举例恰当，论据严谨，令人生疑。随后这位学生承认，文章是ChatGPT写的。美国一家医疗保健创业公司的临床医生尝试让ChatGPT参加美国执业医师资格考试。这项标准化考试，考生至少要专门腾出300～400小时备考，最难的部分面向研究生。研究者下载了一份2022年6月的考题，确保ChatGPT从未训练过相关数据，也不知道考题答案，ChatGPT考试成绩基本合格。该团队认为，这些结果表明，大型语言模型可能有助于医学教育，并可能有助于临床决策。

当地时间2月10日，微软创始人比尔·盖茨接受一家德国媒体采访时表示，ChatGPT的重要性不亚于互联网的发明。而作为曾经的ChatGPT投资人、特斯拉 CEO埃隆·马斯克也曾在推特发文称赞，“ChatGPT好得吓人，我们离强大到危险的人工智能不远了。”

和其他聊天机器人相比，ChatGPT显示出了更高的“情商”。用户会发现，ChatGPT可以回答用户追问的问题，能承认错误，不断调整回答。问它《红楼梦》开篇“原来女娲氏炼石补天之时”的出处，它的回答是《山海经》，被提醒错误后，它很快道歉并调整答案：《封神榜》。它解释的理由中可以看到，它搜索的关键词是“女娲炼石补天”，再次追问，它说，女娲炼石补天的传说是一个历史悠久的故事，出现在多个文献和传统文化中，“因此，没有一个确定的出处”。

李笛说，ChatGPT目前在三个地方有价值，它能帮用户生成一段内容作为初稿，例如邮件、短新闻等，用户再去修改，但现实中，“已有一些国外学生等用户，用它作弊，直接作为终稿提交”。

第二个价值在于，可以给用户提供“启发”和灵感。ChatGPT可以把信息有条理地呈现出来，“假如你想找一个人讨论，尽管它的观点不一定准确，但它会为你提供一种思路。”李笛说，第三个价值就是娱乐。除此之外，如果有人希望ChatGPT提供知识并对此深信不疑，“最好不要，没人能确保它的准确性”。

多位专家提醒，不必神化ChatGPT及其背后的大模型。“它可以像模像样写推荐信，但如果让它回答一些专业问题，你仔细看会发现，它可能是在一本正经胡说八道。”清华大学计算机系自然语言处理实验室副教授刘知远对《中国新闻周刊》说。

就连ChatGPT也承认自己的局限性。问及缺点，它回答：有可能会生成存在种族歧视、性别歧视等偏见的文本，因知识有限或不能理解语义而回答错误，不能处理复杂的逻辑和数学问题，而且，其拥有的知识只停留在2021年。新版必应和Edge浏览器则可以检索实时更新的新闻，甚至可以跟你聊过去一个小时发生的事情。

ChatGPT发布仅一周，当地时间12月6日，因用户大量搬运ChatGPT生成的错误答案，海外知名编程问答平台Stack Overflow暂时在该网站封杀ChatGPT，认为“发布由 ChatGPT 创建的答案对网站及询问和寻找正确答案的用户来说，是非常有害的”。

“某种意义上有点像‘大力出奇迹’”

在李笛看来，就ChatGPT而言，“它不会对产业产生颠覆性影响，但大模型则会。”

2016年前，小模型是人工智能理解人类语言的主流技术，下围棋或机器翻译等某一个具体任务，标注好数据，进入模型训练。但小模型无法用于其他任务，数据标注成本也极高。当时，人工智能领域催生了一个新的职业，人工智能数据标注员。“大家会嘲笑人工智能，说有多少人工，才有多少智能。”刘知远对《中国新闻周刊》说。

传统模式下，自然语言处理是一个非常严密的推理过程，不仅要识别每个词，还要处理词语间的序列，因此诞生了循环神经网络（RNN）模型。但RNN只考虑单词或者上下文信息，常常导致全文句意前后不连贯，或者理解复杂句子时出错。2016年以前，当时的小冰、Siri等问答系统或者机器翻译，都使用小模型。

“当时的人工智能行业，很多技术领域（比如机器学习等）已进入到一个瓶颈阶段。”李笛告诉《中国新闻周刊》。

2017年，谷歌发表论文《Attention is All You Need》，引入自注意力机制学习文本，命名为Transformer模型。在该模型下，神经网络需要学会自动判断哪些词语对理解句意最有帮助，而不是“全文死记硬背”，因此，也不再像过去一样需要大量精标样本。论文一经发布，Transformer模型很快取代RNN成为主流。2018年，基于Transformer，谷歌推出预训练模型BERT（即基于变换器的双向编码器表示技术），同年，OpenAI推出了GPT-1（即生成式预训练变换器）。

刘知远介绍，预训练模型为自然语言处理带来了两个变化：一是可以充分利用网上海量的未标注数据，模型的规模和能力得到显著提高，因而，从规模角度，预训练模型被称为大模型；另一个变化是，大模型具有非常强的通用能力，只需经过少量参数微调，就可以用于机器翻译、人机对话等不同任务。“大模型思想，某种意义上有点像‘大力出奇迹’，把大量数据压到一个很大的黑盒子中再提出来。”李笛对《中国新闻周刊》说。

“但人工标注还是一个重要的数据来源，此前大量的标注没必要了，但在特定任务上还需要标注一些，比如希望这个模型输出的内容更符合人的需求。”刘知远说。近期，《时代》周刊的调查，呈现出ChatGPT智能背后的灰暗角落。《时代》周刊称，2021年11月，为训练 ChatGPT，OpenAI 使用了每小时收入1 ～2美元的肯尼亚外包劳工，对性虐待、仇恨言论和暴力等文本进行标注，保证聊天机器人过滤有害信息，输出适合日常对话的内容，同时，这对标注员的精神和心理产生极大伤害。

学术界对大模型态度一直存在分歧。北京智源人工智能研究院副院长刘江介绍，GPT-3论文发布时，无论国内外，不少自然语言处理领域学者认为，大模型只是靠持续烧钱、粗暴扩大数据规模提升能力，并非真正创新。刘知远对《中国新闻周刊》说，还有一个更现实的问题，大模型需要极大数据和算力支持，如果一些研究者的实验室没有算力支持，他们可能会选择过去熟悉的方向。

OpenAI是全球所有科技公司中，大模型的坚定支持者。2019年，OpenAI推出参数为15亿的GPT-2，2020年推出GPT-3，将参数提升到了1750亿，成为当时全球最大的预训练模型，引发业内轰动。“绝大部分人根本没想过，人类可以把一个模型训练到这么大的规模，这对自然语言交互的流畅性有非常强的提升。”刘知远说。

参数增多，使语言模型学习进阶到更复杂模式。早在2020年，GPT-3可以做到其他模型无法做到的事情，比如作诗、写复杂的文章和代码等，通用性极强。刘知远形容，GPT-3像是一个伶牙俐齿的人，有不错的表达能力，但不具备很强理解能力。

2022年，GPT-3进一步升级为GPT-3.5，这是ChatGPT的底层基础，OpenAI进行微调，提升交互能力，让它“听得懂人类的复杂指令”。“这些都经过了专门训练，像父母对小孩的调教。”刘江形容，GPT-3像是两三岁的天才儿童，读完世界上所有的书，但不知轻重，也没有价值观，需要父母精心教育和启发，让它在聊天方面发挥潜力。

清华大学智能产业研究院首席研究员聂再清向《中国新闻周刊》介绍，ChatGPT聊天能力的显著提升，是引入了一个新的数据训练方法，人类反馈强化学习（RLHF）。OpenAI引入人类评判员，创建一个奖励模型——评判员不断地跟ChatGPT对话，并对它生成的答案按照质量好坏评分，模型收到反馈后进行优化。山姆·奥特曼也承认，“让模型以特定方式对人们有所用途，并找出正确的交互范式，却得到了惊人的效果。”

在自然语言处理领域，流传最广的一句话来自于比尔·盖茨：“自然语言处理是人工智能皇冠上的明珠，如果我们能够推进自然语言处理，就可以再造一个微软。”

刘知远认为，ChatGPT推出后最大的价值在于，能用RLHF等技术，把大模型的能力展现出来，让公众意识到，人工智能与人类自然语言的交互达到非常高的水平，机器已经可以“能言善辩”了。