AI颠覆手机,端侧大模型成胜负手

作者: 张天伦

AI颠覆手机,端侧大模型成胜负手0

拥有实时双向翻译、照片消除路人等功能的AI手机,销量正创下新高,AIGC已成决定手机厂商座次的关键,从苹果到三星、荣耀,各大厂商已纷纷布局。

端侧大模型则是AI手机的胜负手,如何将更大参数的模型塞进手机,或者令小参数的模型实现更高的性能,带来新的挑战与机遇。

北京时间2024年6月11日,苹果全球开发者大会开幕。苹果宣布,其混合现实头显Vision Pro在美国以外市场销售,6月14日向中国内地、中国香港、日本和新加坡的用户开放预购,6月28日起正式发售,国行版售价为29999元起,容量为256G、512G以及1TB。

而在两个小时的主题演讲中,苹果最新发布的个人智能系统“AppleIntelligence”(苹果智能)独占了1个小时。

在介绍中,苹果将Apple Intelligence定义为可应用于iPhone、iPad和Mac等智能设备的个人AI系统。其能够利用苹果芯片的能力,提供照片消除路人、编写文案等覆盖语言、图片、动作和个人语境四个维度的AI服务,其中大部分的信息处理和保存在本地设备上进行。

同时,苹果也宣布与OpenAI合作,用户将能够通过Siri,免费获取ChatGPT提供的回答,包括文字和图片。苹果表示,未来可能会与其他第三方大模型合作。

不过,或受限于芯片性能,目前Apple Intelligence只能在iPhone 15Pro和iPhone 15 Pro Max,以及搭载有M1芯片(及更新的M系芯片)的设备上运行,且Siri的AI服务仅支持英语,包括Siri和设备语言都需设置为“英语(美国)”。

苹果此举意味着,其将把AI带给全球逾10亿iPhone用户。

在苹果之前,许多手机大厂已经发布了搭载有AI功能的手机。

例如,小米在2023年10月发布的Xiaomi 14系列,即能够在离线状态下使用“AI去除路人”功能,过去该功能需在“美图秀秀”等App中付费使用,售价为30元/月,且需连接网络。

在海外市场,三星AI手机GalaxyS24新增的双向通话翻译功能,则能够即时翻译13种异国语言,让通话双方听到翻译后的语音及文字,让用户跨越语言障碍(表1)。

消费者也愿意为之埋单。亮眼的Xiaomi14系列,首周销量即突破百万台,“这个成绩应该是除iPhone外,近几年国产手机全价位段销量的最高峰。”红米(Redmi)市场总经理、品牌发言人王腾称。

在韩国,GalaxyS24用时28天突破百万销量,也创下S系列机型的销售纪录。

在AI手机抢占用户心智前,手机大厂已在用更快的速度加码AI布局。

本土厂商中,OPPO成立了AI中心,整合全球资源向AI集中;小米AI团队已有3000多人,并在2023年4月组建了超1200人的AI大模型团队;vivo组建了千人规模的AI专家团队,并在2018年成立了人工智能图谱研究院;荣耀发布了AI使能全场景战略,并表示任何手机操作系统都值得用AI重做一遍;中兴、魅族等蛰伏于二三线的厂商,则发出了“AllinAI”“AllforAI”的宣告……IDC预测,中国AI手机的市场份额在2026年将很快飙升至45.3%。

苹果在举行此次全球开发者大会之前,也已在大幅追加生成式人工智能(AI-GeneratedContent,简称“AIGC”)领域的投入。在5月初举行的第二季度财报电话会议上,苹果CEO库克预测,苹果在AIGC领域将超越竞争对手,并有望引领行业标准。而在今年2月,苹果被爆出放弃了已投入10年时间、耗费数十亿美元的电动汽车项目,部分员工转移至AIGC团队。

AIGC在逻辑推理、语言理解、长文本等方面出众的能力有目共睹,也正在为创新乏力的手机厂商提供新的升级方向。“2024年是AI手机元年。AI手机也将成为继功能机、智能手机之后,手机行业的第三阶段。这轮由大模型支撑的AI技术,正在重构手机行业的未来。”龙年伊始,OPPO创始人兼CEO陈永明在公开信中作出最新表态。

那么,为了不被AI浪潮挤下牌桌,各大厂商究竟如何布局?所谓的AI手机,究竟关联着哪些核心技术?

端侧大模型图景:苹果陆续披露成果,华为投资初创企业

随着Kimi、文心一言等App和小程序的推出,当前大部分的智能机用户都能够体验到前沿的AI功能。那么,AI手机与普通智能手机相比,又有何不同?

从苹果对AppleIntelligence的定义不难看出,AI手机的一大特征,是在断网状态下依旧能够提供AI服务,包括路人消除、实时双向翻译、通话摘要等。而做到这一步的核心,在于端侧大模型。

所谓端侧大模型,指能够在终端设备,比如手机上运行的AI大模型。其主要依赖终端本地的芯片等硬件提供算力和算法,实现一系列的AIGC能力。

同时,端侧大模型也是手机AI能力可持续的重要一环。当前,用户在美图秀秀、Kimi、文心一言等App和小程序使用AI功能时,算力主要由云端服务器提供,成本极高。相比之下,用户通过AI手机搭载的端侧大模型,使用AI消除等功能,成本只是手机功耗提升,耗电量增加。

“现在应用一次云端大模型的成本大概在1.2―1.5分左右,若vivo国内3亿用户每天用十次,一年算下来也有百亿元左右的支出。”vivo副总裁周围在2023年表示。当然,如今阿里巴巴、百度等大模型算力供应商都在大打价格战,云端大模型的运行成本也已大幅走低。

而端侧大模型的优势也远不仅是成本。基于个人的差异化需求,当前手机厂商对于AI应用的另一趋势,是将端侧大模型的算力融入至操作系统,让手机成为一个能够管理用户各类数据,识别用户需求并提供服务的AI智能体(简称“AI-Agent”)。“我们认为任何手机操作系统都值得用AI重做一遍。”荣耀CEO赵明称。

因此,端侧大模型引起了手机厂商的高度重视,纷纷在此领域加紧研发及布局。

据新财富统计,目前市面上AI手机所搭载的端侧大模型,大部分为各厂商自研(表2)。当然也有特例,如三星GalaxyS24系列,在海外市场主要采用谷歌的“GeminiNano”,而在中国内地则由百度的“文心大模型”提供端侧AI能力。但随着三星于2023年11月公布了自研大模型“Gauss”,未来,其手机产品搭载的端侧大模型是否会转向“Gauss”,也是未知数。

提出要用AI重做操作系统的荣耀,正将自研的“魔法大模型”整合到其操作系统MagicOS和所有荣耀设备中,并在2024年1月发布了全新的MagicOS8.0,以及Magic6手机。

MagicOS8.0与旧版的最大区别,在于能够精准识别用户意图,预测并推荐用户所需的服务。以Magic6新增的“任意门”功能为例,当用户需要导航微信聊天时所提及的地点,只需长按相关信息,拖至左右两侧屏幕唤醒“任意门”,操作系统即能识别用户的导航需求,匹配常用的导航App,实现地址一拖立即导航。此外,其语言助手YOYO,也集成了“个人事务助理”“图库语义搜索”“对话成片”等AI功能。

苹果尽管尚未公布AppleIntelligence的运行参数,但其今年密集发布的多个与端侧大模型相关的研究成果,也披露了部分研发进程。

这些研究成果包括可显著提升Siri在理解和响应用户指令方面能力的端侧大模型“ReALM”,该模型参数包括0.8亿、2.5亿、10亿、30亿四大规模,其中,仅0.8亿参数的模型,即能在上下文理解能力上打平甚至超越GPT-4;可针对移动用户界面理解与交互的端侧大模型“Ferret-UI”,其在理解应用程序在屏幕上显示的内容时有着显著的优势;在端侧独立运行的开源系列模型“OpenELM”,其包含2.7亿、4.5亿、11亿和30亿共四个不同参数版本,提供生成文本、代码、翻译、总结摘要等功能……

除了积极自研之外,苹果还在3月收购了加拿大一家初创生成式AI公司DarwinAI,该公司的核心技术之一是利用机器学习构建更小、更高效的AI系统。

在国内,小米、华为也正通过投资,加速大模型布局。其中,小米分别在2023年8月、10月先后参与了北京智谱华章科技有限公司(简称“智谱AI”)、北京百川智能科技有限公司(简称“百川智能”)的B+轮、A轮融资。

在硅谷科技媒体TheInformation对中国大模型企业的盘点中,智谱AI被认为是“最有可能成为‘中国OpenAI’的5家企业”之一,其余4家分别为MiniMax、光年之外、澜舟科技、月之暗面。

2024年1月16日,智谱AI发布了全新自研的第四代多模态基座大模型GLM-4系列,称性能相比上一代全面提升接近60%、模型性能直接逼近GPT-4,OPPO、华为也出现在其合作伙伴名单中。

华为在今年4月通过深圳哈勃科技投资合伙企业(有限合伙,简称“哈勃科技”)投资了一家大模型初创企业⸺北京面壁智能科技有限责任公司(简称“面壁智能”)。

面壁智能成立于2022年8月,其CEO李大海现在担任知乎技术总监,他从零开始为知乎搭建搜索和推荐业务,是知乎AI“智能社区”发起人。清华大学计算机系长聘副教授刘知远是面壁智能的联合创始人兼首席科学家,主要研究方向为自然语言处理、知识图谱和社会计算。

企查查显示,2023年4月,面壁智能完成天使轮融资,投资方为知乎以及智谱AI。2024年,哈勃科技领投面壁智能B轮融资,参投方包括北京市人工智能产业投资基金、春华资本、知乎。

面壁智能今年2月发布了适配于主流手机的端侧大模型“MiniCPM”,并很快于4月进行了迭代升级。值得一提的是,2024年6月,美国斯坦福大学AI团队的两名成员森德哈斯·沙玛(SiddharthSharma)和阿克沙·加格(AkshGarg)正式发文承认,其发布的“Llama3-V”模型抄袭“MiniCPM”,并承诺下架相关套壳模型。这则新闻令面壁智能名声大噪。

根据公开资料,今年5月,上述团队在发布“Llama3-V”时表示,该模型在多个基准测试中能够与GPT-4V、Gemini Ultra、Claude Opus等知名模型一较高下。

技术升级:产业链洗牌在即

当端侧大模型加速落地,手机厂商将面临更多技术挑战。

需要解释的是,依据模型的规模定律,参数规模是决定模型性能的最关键因素,即参数越高,性能越强。以vivo发布的“蓝心大模型”为例,其70亿参数的模型,具备较强的语言理解和文本创作能力,而10亿参数级别的模型,则主要负责专业文本处理相关的工作。

但是,由于运行端侧大模型会大幅增加手机的工作负荷,因此,如何将更大参数的模型塞进手机,或者令小参数规模的模型实现比肩大参数模型的性能,均是手机厂商尚需解决的问题。

除AppleIntelligence只能在苹果的部分设备运行外,2023年10月谷歌发布旗舰手机Pixel 8和Pixel8Pro时,也以“硬件限制”为理由,拒绝在Pixel8上运行最新的大模型“Gemini Nano”,用户只能在隐藏的开发者选项中开启。

“Pixel 8只有8GB内存,如果贸然启用GeminiNano功能,很可能会影响用户的使用体验。与之相反,Pixel 8Pro拥有12GB内存,能比较好地释放AI模型性能”,谷歌设备和服务软件副总裁SeangChau解释称。

彼时,谷歌Pixel8Pro搭载的端侧大模型“Gemini”,参数规模分别为18亿、32.5亿。而到了2024年,除vivo外,OPPO、荣耀也同样将70亿参数的端侧大模型装进手机。

当然,持有除iPhone 15 Pro、iPhone 15 ProMax之外其他机型的苹果用户,未来或许也能够体验到AppleIntelligence的AI能力,而这取决于苹果对AIGC的研发能力。

上一篇 点击页面呼出菜单 下一篇