王俊煜 大语言模型产品的一些设计思路

今年年初以来,我一直在这里断断续续地分享自己对以大语言模型为代表的AI发展的观察。大半年来,在围观了几场黑客松和demo day、交流了上百个不同的团队和创业者、自己也动手写了几个月代码、和团队一起做了三四个产品原型之后……我想,可以稍微系统一点地分享我对如何使用大语言模型来创造新应用的思路了。

ChatGPT的发布,让从业者们看到了实现通用人工智能的曙光。而说到通用人工智能,人们最容易想到的还是科幻电影中的那些机器人角色:《2001:太空漫游》中的HAL 9000、《钢铁侠》中的Jarvis,以及,可能因为从业者中男性居多,《Her》中的Samantha似乎被提及得更多一些。这些虚构的角色,往往会在各种演示、宣讲中被用来描绘通用人工智能的愿景:一个面向所有人的、真正的智能个人助理。这也是许多团队今天努力的方向。

但曙光毕竟只是曙光。不可否认的共识是,ChatGPT等基于大语言模型的聊天机器人,即便在过去半年进步很快,在今天离一个真正的智能个人助理还有相当大的差距。如果我们的目标是实现一个面向所有人的、通用的智能个人助理,显然还要付出很多的努力。

有趣的是,不同背景的创造者在此时就会选择不同的路径。我发现,科研、技术背景的团队创造者,往往会对这一差距能在较短时间内弥合更为乐观,因此倾向于选择从模型层着手去硬磕,在产品形态上则基本追随ChatGPT的设计。

我作为设计、产品背景的创造者,认为这条道路不可取。直接做通用的智能个人助理,试图一次性满足所有人的所有要求,带来的结果就是只要在任意一方面没有做到100分,就会被用户感知到。普通用户不同于技术尝鲜者,此时会对新技术产生不信任感,甚至直接放弃。因此,我更愿意从应用层着手,根据大语言模型今天的能力来设计新的应用,通过产品设计来扬长避短,让大语言模型能在今天的世界中马上为普通人发挥价值。

当然,这也可能是因为我并非硬核技术背景出身,对于大语言模型的进步速度缺乏想象力,只能基于大语言模型今天的能力去做线性推演。

我们在这里讨论的都是如何做面向消费者的“超级应用”,这个思路其实还有几个分岔。例如,同样面对今天大语言模型的能力局限,有不少朋友选择了从娱乐方向、情感方向切入,因为他们认为这样对大语言模型的能力要求略低。逻辑上我也认为这是成立的。但由于个人对娱乐方向、情感方向没有什么直觉判断,所以不会选择这样的道路。

我们的目标是基于大语言模型的应用最终帮助人类理解世界和表达自我,这本身就是语言的基本作用。

我选择的道路是,先选择一些“垂直”场景,为每个场景单独开发基于大语言模型的应用,再看这些应用能否连点成面,最终组合成一个通用的智能个人助理。

这里所谓的“垂直”场景,其实就是比通用人工智能的场景少一个维度的场景。场景少了一个维度,复杂度就降低了一个数量级。

目前有两种切分的维度。一是在人群上做切分。取比总人口低一个数量级的一部分人口,做针对他们的通用场景。比较容易想到的人群,包括儿童、老人、父母、大学生、年轻公司人等等,他们身上的某些共性也许可以简化对大语言模型的能力要求。从发展的眼光来看,也可以考虑一些特定职业。比如GitHub注册人数刚刚超过1亿,假设这些人都是程序员,也大约只占全球劳动力的3%。但随着越来越多人需要和计算机程序打交道,“编程”作为一种通用技能也许会得到普及,那可能也是一个足够庞大的人口了。从这个角度而言,几乎可以包揽程序员的一天的GitHub Copilot,也是通用的。

另一个切分维度,是选择大多数人日常生活中的某个场景来切入。这个场景得是大部分人的生活里每天会出现的,用拉里·佩奇的话说,至少需要是一把“牙刷”。移动互联网经过十多年的发展,符合上面这个条件的场景,大多已经作为一个应用图标出现在了手机的首屏上。这些应用中有许多都可以使用大语言模型或其他AI技术来“重新发明”,只是有些适合小团队做,有些可能只适合大公司做。还有一些人们每天都会有的需求,以之前的技术没有办法由一个很好的应用来承载,大语言模型的出现有可能促使这些领域诞生一些之前不存在的产品形态。这些有待依靠我们的洞察去挖掘。举个例子,每个人其实每天都需要通过阅读来大量获取并消化信息,但过去没有一个应用很好地来帮助人们处理这个过程,也许现在有这样的可能性了。

应该注意,只能“切一刀”降低一个维度,而不能“切两刀”同时降低两个维度。要么,是针对少一个数量级的人口,做对他们来说覆盖日常生活方方面面的通用场景;要么,是针对所有人口,服务好他们日常生活中的某个常见场景——如果最终的目标是做出一个通用产品的话,现在选择的“点”切得太小,最后很有可能没有办法连到一起,成为“面”。

也不要选择太小的人群,这在商业模式上有挑战;如果目标场景太小,则不利于养成用户习惯。

上面这部分关于寻找机会点的原则看起来很宏观,像是传统的市场分析,但不要忘记,我们切分场景关心的不是市场规模,而是为了通过寻找某一个人群或某一场景的共性,降低对大语言模型的能力要求。这样子,大语言模型不需要在同一时间满足所有人的所有要求,经过特定优化之后,更容易为用户提供超出预期的卓越用户体验。因此,这也不是简单地对着市场统计报告做排列组合,实际上还是一个自下而上的、从微观到宏观的过程,考验的还是对所选人群或场景的洞察。

这部分我觉得实际上是更大的挑战,充满未知。前几期讲的技术可行性和用户渴求的纠缠,也是发生在这个地方。如果我们仅仅停留在宏观层面,大语言模型在很多领域理论上都可以发挥很大作用。但实际效果如何?只有从具体的人、具体的故事出发,开始动手、“getting hands dirty”之后才会知道。在各个黑客松中,经常能看到很多想法做出来和设想有区别,没有办法为用户提供实际的价值(但这也是黑客松的价值)。

而且,我们不能满足于简单的“有用”,而是要追求和用户现有解决方案相比,超出一个数量级的“有用”。只有这种质变,才能吸引用户改变习惯。

核心要使用的方法还是以人为中心的设计方法论。只是针对大语言模型领域,有几条更具体的设计原则。在此篇幅有限,简单列举其中的一部分。例如,我们认为每个产品都应该是开箱即用的,已经适配好了不同场景的不同工作流,普通用户应该永远都不需要理解什么叫“prompt”。事实上,我每次看到别人分享的充满奇技淫巧的prompt模版,每一个看起来很geek的工作流,都觉得这意味着一个潜在的产品化机会。

例如,大语言模型今天的各种局限,如数据及时性、上下文窗口大小、幻觉、推理能力等,都应该努力通过产品设计来避免让用户感受到,或者能让用户理解,而这势必涉及到根据不同的场景去做针对性的产品设计、或预设业务逻辑。

又比如,我们确保每个场景的输入数据和输出行动都足够完整。今天市场上的聊天机器人,要成为真的对人有用的通用智能个人助理,其中一个很大的差距不在其是否“聪明”,而是在于是否有能力观察、收集、记忆大量的个人信息,以及自动化地完成各种任务。以Siri、Google Assistant、Alexa为代表的上一代智能个人助理,经过十多年的发展迭代,在这方面的积累仍然非常有限。这也不是一个单纯的技术或工程问题,更多涉及到用户体验设计、商业模式、数据所有权和个人隐私,以及不同系统之间的互联互通,在短期内可以在通用场景中彻底解决的可能性不大。但在我们设计的垂直场景中,要做到并不困难,可以努力做到极致。

不管是创造性地用新方法解决了一个别人解决过的老问题,还是发现并解决了一个没有人解决过的新问题,都对产品的设计能力提出了更高的要求。但的确就目前我们的尝试而言,在场景“降维”后,以大语言模型今天的能力完全可以胜任。

我个人的思路,可能是对的,大概率是错的。写在这里,可以等时间来验证。

这也是我们目前正在实践的思路。我们的目标是基于大语言模型的应用最终帮助人类理解世界和表达自我,这本身就是语言的基本作用。只是,我们不追求一步到位创造一个通用的AI应用,而是先通过若干独立的AI应用,试图连点成面,来探索最终的形态。

有一点像一个实验室,不断用这个方法在普通人的日常生活中找到那些可以被新的AI能力解决的问题,设计出普通用户不需要学习理解AI的技术原理就可以马上开始使用、能给他们的日常生活带来实际价值甚至惊喜的产品。当然,我们做的都是和“认真阅读”相关的领域,也就是涉及到人类对信息的发现、筛选、消费、积累和分享。

再说回一点文章开始讲到的来自科幻电影的机器人们。我觉得用科幻电影中的幻想作为产品的愿景,既充满想象力,也缺乏想象力。电影里的一定是发展的终极形态吗?我仍然觉得不见得。科幻电影之前对个人随身计算设备的想象,更接近于Vision Pro等XR设备,而不是以iPhone为代表的智能手机。但目前而言,智能手机已经是这个时代的终极形态了。

最终形态是什么,我还不知道。这是等待被创造的,而我倾向于使用自下而上、自微观到宏观的方式来寻找答案,而不是先预设答案。不管如何,都没有必要再复制一个ChatGPT。那是浪费资源。

上一篇 点击页面呼出菜单 下一篇