OpenAI新发布的o1模型怎么样?
作者: 王俊煜2024年12月5日,OpenAI正式发布了o1模型。
关于o1,坊间早有传闻。2023年11月,OpenAI那场短暂的“政变”过去没几天,路透社就报道说,Sam Altman被“除掉”的原因之一是OpenAI正在研发中的代号为“Q*”的模型过于强大,董事会担心这项技术若所托非人,将威胁人类文明,“Q*”后来又被称为“Strawberry”,也就是现在上线的o1。
对于一个可能会威胁人类文明的AI,我们还是有一些好奇心的。但好奇心是昂贵的,要使用“完全体”的o1,需要充值每月收费高达200美元的ChatGPT Pro,才能解锁o1的“专业模式”,且不提供试用。按照Sam Altman的说法,“专业模式”可以让o1“更用力地思考最难的问题”。
什么叫难题?按OpenAI自己发布的评测,o1能在物理、生物、化学等诸多学科领域超过博士水平;如果去参加2024年的美国数学邀请赛,它能进入全美前500名。但坦白说,对此类宣传,我们作为用户已经有些无感了。新模型出现的速度越来越快,每个新模型发布的时候都会跑一堆分数,宣称自己在某些测试中破了纪录。听起来都是很厉害的“做题家”,但作为普通人,难免会感到困惑:我们日常用到的模型好像没有那么厉害。如果我并不打算挑战国际数学奥赛金牌,这些模型的分数跟我的日常工作有什么关系?
于是,我打算拿工作中“最难的问题”来试试。
说到最难的问题,我首先想到的是学术研究工作。我自己不做学术研究,但我的同学中研究什么的都有。我在大学和中学同学群中,请各行各业的同学帮忙列出自己工作中“最难”的问题。最后,我收集到了来自数学、物理、大气、化学、生物、材料、哲学、艺术、经济、金融、法律、财务……等等领域的问题。其中,最酷的是我的数学家同学,“能不能证出我的定理?”。天哪,他都有自己的定理了。
用他们的问题向o1提问,开启“专业模式”后,等待数分钟,就会收到答案。
同学们拿到答案后,大多数人认为和之前的模型相比更加详细,有更多细节,逻辑也更加清晰,“条理清楚、主次分明、考虑全面”,但同时“说话也更绕了”。大家普遍认为,它看起来“肯定嚼了很多文献”,“作为文献收集整理挺好”,“知识水平上跟博士生差不多”;材料科学家认为,“如果能稳定保持这个水平的话,当科研助手绝对不亚于一个博士生,关键是博士生回答这个问题至少要一周。”
但它是否真的拥有博士生的能力?可能取决于这个能力有多通用。大气科学家表示它套用的分析问题的“模式”是正确的,虽然很基础,但仍然“可以给我们很多具体的参考”。生物学家则有不同意见,他问了一个基因编辑的问题,认为AI并没有真正理解蛋白质切割的原理,“不是真的分析了蛋白结构,而是直接找已有结论”。
从研究的角度,“没有什么突破性的思路”。但说到这里同学们话锋一转,纷纷开始吐槽,“现在的博士生基本也没有……”“现在研究生的水平也不好,让他们去干,还不如自己干了”。
所以,从这个角度来说,o1确实可以和博士生比一比。最早给别人介绍ChatGPT时,我会比喻说,可以把它看成一位本科学历的、接受过良好通识教育、但不具有专业知识的助理,稍微有些偏文科,依靠直觉来做事。在过去这两年,它被证明可以轻松胜任的工作是总结摘要、翻译,以及一些应付式的官样文章写作。今天要介绍o1,可以用一模一样的比喻,只是变成了一位有些偏理工科的博士,强调的是推理、逻辑能力。
那么,假如不从事研究工作,这种推理能力是否有用?这个问题有点像,理工科学生在大学都要学微积分,但大部分人的工作是不需要用到微积分的,那么为什么要学?要回答这个问题,我们让o1去上班试试。
我原来创办的互联网公司大约有500人,当时我们将所有的岗位分为了软件工程师、系统运维、产品管理、产品设计、用户研究和战略分析、市场营销、商务销售、运营等几大类,并制定了统一的级别划分和相应的职责能力要求。简单重新浏览这些要求后,我发现,除了软件工程师(这在上期专栏已讨论过)和战略研究员(这和上面的学术研究更相似),其他岗位的入门级别虽然工作难度不高,但涉及大量人际沟通、原始数据收集和落地执行等事务,目前很难被立刻取代。
反而是一线经理人的工作,由于更多涉及制定计划、策划方案、分析结果等纯“动脑”的部分,可以被AI取代的部分更多一些。我们拿实际工作中的问题,分别请o1撰写了一份竞争战略分析报告、一份产品需求文档,和一份市场营销活动策划。按市场营销同事的看法,之前的大语言模型输出的更像是“模板”,实际内容还是需自己去思考和撰写,o1的输出第一次让人感觉稍作修改就可以直接拿去用。我们也确实拿去用了。
当然,如果要AI给出更有针对性的方案而不是泛泛而谈,你需要告诉它更多细节。有趣的是,当你不得不长篇大论地把问题说清楚,你脑中的问题可能已经迎刃而解了。说到这里,我意识到这其实更像请外部顾问—在真正的咨询项目中,向顾问讲清问题、帮助他理解上下文,本身就是很大的工作量。从这个角度说,如果你是一名决策者,这一代AI或许能扮演好你可以每天请教的智囊角色,而不仅仅是帮你收集材料、润色文档的助理。
你还是需要理解大语言模型的局限,包括没有实时数据、喜欢胡编乱造、记性不太好,等等。o1没有实时搜索能力,在这方面和主流模型相比有些倒退,这意味着它只能凭借自己的积累来回答问题,“不知有汉,无论魏晋”。它自己不知道“o1”是什么,也无法直接回答关于特朗普再次当选和TikTok的问题。至于胡编乱造,随着AI智能程度的提升,可能更难被一眼看出。它的工作,你确实需要仔细检查。
说到底,AI即使有再聪明的大脑,但缺少眼睛和手脚,也很难真的解决实际工作中的问题,毕竟大部分工作任务并不是单纯的“思考”。当我问经济学家同学,AI是否能取代研究生时,他告诉我,他最近在做进出口相关的研究,研究生目前的主要任务是将海关官网的数据复制粘贴到表格中,因为海关官网做了防爬虫—我尝试了半天,用AI编程,确实就是卡在了那个我们耳熟能详的“拖拽拼图”的验证环节上。现状是,我们可能反而需要雇用人类来当AI的眼睛和手脚,每天坐在电脑前拖拽拼图。
就在o1正式发布两周后,Google、DeepSeek等厂商推出的新模型又在若干测试中超越了它;而在Google推出新模型的次日,OpenAI公布了“o3”,又重新拉开了差距,它可以挑战比国际数学奥林匹克竞赛题更专业的数学问题。
从业者要面对的现实是,ChatGPT上线两年来,虽然模型能力早已大幅提升,但测试分数难以直接翻译成普通用户的使用体验,用户只能依靠口碑和自己的经验来为每一项任务挑选合适的模型,像我日常使用的模型就有五六款之多。模型的表现也不稳定,常常需要反复尝试不同模型,增加了使用难度。这些,都是普通用户让AI在工作生活中发挥更大作用的障碍。
我认为,和模型能力的提升相比,我们在产品形态的探索上大幅滞后。上期专栏提到“AI程序员”之所以更接近现实,编程能力强是基础,更因为行业大量投入,让“AI程序员”拥有了眼睛和手脚,通过Cursor、Windsurf、Devin等产品形态的创新释放了AI的价值,而不是只能通过聊天来和AI沟通。将这种做法复制到其他领域中,才有可能让AI发挥价值。
Sam Altman说,ChatGPT Pro目前是亏损的。这让我想起大学军训结束那一天,我们一群男生涌进学校旁边19.9元的自助肥牛火锅店而老板欲哭无泪的情景。如果你已经是ChatGPT等工具的重度用户,并且感到已有模型有些力不从心,有信心把这个钱吃回来,不妨一试。当然,在此之前,Google的对应模型暂时可以免费试用,不妨先试试看。