被“斯坦福团队”抄袭,这家公司什么来头
作者: 向治霖
因为一起抄袭事件,面壁智能意外出圈。
5月末,斯坦福大学的一个研究团队发布模型“Llama3V”,号称只花了500美元,却做了一个“SOTA多模态模型”。在AI行业,SOTA(State Of The Art)的意思是“最先进的”“最优的”,指“在某一特定任务、领域或指标上,当前已知的最佳性能或最先进的技术”。
模型的受关注度,或许佐证了“实力”。Llama3V发布不久,即在上万个模型的社区Hugging Face上名列前茅,排名最高时,位列模型“周排行”的第四位。
只是很快,用户指出Llama3V“套壳”了中国AI公司面壁智能发布的开源模型MiniCPMLlama3-V 2.5。
斯坦福团队试图抵赖,没撑多久。6月初,两位作者公开道歉,只是“甩锅”之意明显,“责任全在(已跑路的)编程人员”,“杀个程序员祭天”的传统得到延续。
为此,“真大佬”也坐不住了。斯坦福人工智能实验室主任Christopher Manning发问抨击:“为什么不敢承认错误!”(How not to own your mistakes!)不过他也强调,自己对此一无所知,“似乎是几个本科生做的,有一些来自斯坦福”,言语间满满边界感。
单论抄袭事件,事实清楚,证据确凿。但因此事,AI圈子里掀起一场讨论:AI开源社区中的中国势力,其能力以及对生态的贡献,长久以来是否一直被忽视?
“清华简”揭开真相
大抄一通的斯坦福团队,其实“胆挺肥”——被抄袭的MiniCPMLlama3-V 2.5,在开源社区可不是什么“无名之辈”。
5月20日,MiniCPM-Llama3-V 2.5正式发布,仅仅3天后,其热度登上开源社区Hugging Face和代码托管平台GitHub趋势榜的“双榜首”,在GitHub的星标数(可以理解为收藏数)超过3000。面壁智能当时称,MiniCPM-V系列下载总量已超13万。
5月29日,抄袭之作Llama3V发布。也就是说,距离“正主”发布仅9天,且还在“热搜”时期,斯坦福团队就直接实践拿来主义了。
抄袭事件给原创项目又添了一把热度。6月9日,面壁智能团队告诉南风窗,当前MiniCPM-V 系列下载总量已超24万,GitHub星标数超过6900。
回到事件本身,从手法上看,抄袭者也显然是“胆大心不细”,就连模型名“Llama3V”,在“正主”处也能找到对应的字符。赤裸裸的程度令人咋舌。
因此,Llama3V发布不久就被抓住小辫子。最初是有用户在项目下方留言:“你们是不是在MiniCPMLlama3-V 2.5基础上进行训练,并且完全没有提到这一点?”
Llama3V项目的作者先是否认,并称只是使用了MiniCPMLlama3-V 2.5的tokenizer(分词器)。
6月2日,更多的证据浮现。有网友在项目下方列举了四大证据,结果惨遭项目团队删文。质疑者气不过,将截图发到了面壁智能开源项目的评论区,提醒原创团队关注此事。
该网友列举的四大证据中,最令人错愕的,是斯坦福团队在项目页上直接导入过“正主”MiniCPM-V的代码,“重命名”为Llama3V。
面壁智能团队告诉南风窗,6月2日深夜,团队正式确定了斯坦福大模型是对其的“套壳抄袭”。团队负责人解释,这般肯定是因为,面壁大模型独有的“彩蛋”功能,Llama3V居然也有。
这项功能是对“清华简”战国古文字的识别。
“清华简”是清华大学在2008年收藏的一批战国竹简。一参与者回忆,面壁团队的同学们花费数个月,从清华简上扫描得到训练数据,层层工作后将对清华简的“识别能力”融入MiniCPM-Llama3-V 2.5模型。“这个能力这次没有进行宣传展示,没想到最后成为揭露真相的关键证据之一。”
距离“正主”发布仅9天,且还在“热搜”时期,斯坦福团队就直接实践拿来主义了。
训练数据对于大模型,就像是书本对于学生,学生的天资(对应模型的参数量)再高,如果没有书本,也不能掌握特定的能力。但面壁团队的测试发现,斯坦福团队大模型对清华简的识别,“不仅对得一模一样,连错都错得一模一样”。
又过2天,斯坦福团队三人中的两人,Siddharth Sharma和Aksh Garg公开道歉,但同时称他们只负责其中项目推广的工作,唯一“技术骨干”Mustafa Aljadery则无法联系上,其社交媒体账号也已设置为私密。
开源就是抄?
闹剧告一段落,6月5日,面壁又有大动作,在官微上宣布,对面壁的性能“小钢炮”MiniCPM系列大模型开放免费商用。
面壁智能对南风窗解释,今年是其开源社区OpenBMB三周年,MiniCPM-Llama3-V 2.5是“我们在5月20日送给每位的节日礼物,很高兴现在能够让更多人知道我们的节日礼物”。
回顾抄袭事件的始末,面壁团队的应对低调、周全。面壁联合创始人、清华大学长聘副教授刘知远还在回应时提到,“(两位本科生)未来还有很长的路,如果知错能改,善莫大焉”。
不过,无论是刘知远、面壁CEO李大海,还是面壁团队给出的回应里,都严肃强调了“对开源协议的遵守”。
事实上,被抄袭的MiniCPMLlama3-V 2.5也不是完全自研,其建立在开源模型Llama3 8B(80亿参数)的基础上,后者是美国公司Meta今年4月开源的大模型之一。
开源社区支持和鼓励复用前人成果,由此“站在巨人的肩膀上”,聚集智慧、共享协作。相应地,开源共享的底层逻辑,是对开源协议的遵守,对其他贡献者的信任,对前人成果的尊重和致敬。
比较之下,MiniCPM-Llama3-V 2.5在名称上仍保留“前作”Llama3的痕迹,“致敬”并没有藏着掖着,而斯坦福团队的“Llama3V”则在台前台后都抹掉了MiniCPM。此处顺便一提,CPM的全称是“中国的预训练模型”(Chinese Pretrained Model)。
澄清开源的逻辑,也就破除了“开源就是方便抄袭”的偏见。“国外一开源,国内就自研”一句讥讽意味的话,始终是国内开源项目厂商头上挥不去的一片乌云。斯坦福团队抄袭事件发生后,仍然有声音质疑说,面壁MiniCPMLlama3-V 2.5也是抄的Llama3,与斯坦福团队不过是“先抄”“后抄”的区别。
然而两者绝不等同。前文清华简的例子说明,新的训练数据,可以给大模型加上此前未有的功能。框架优化、参数微调等,也都有同样功效。
基于开源项目的项目开发,好比一个游戏,基础大模型如Llama,就是玩家进入游戏时拿到的“布衣”角色,通过升级打怪氪装备,玩家号从“布衣”升级到“黄金圣斗士”。而抄袭呢,就是直接盗号了。
由此一窥事件中真正的主角MiniCPM-Llama3-V 2.5,在以语言模型Llama3 8B为基础的前提下,主打的却是多模态能力,即能够处理不同类型的数据,如图片、文字等。
在开源社区上,面壁提供的Demo相当简单:模型启动后,用户可以在界面上传图片,而后模型将对图片进行分析,输出相应的文字信息。
这涉及模型的对图片识别理解能力和OCR(光学字符识别)能力。前者是模型对各类复杂图片,如票根、营养食谱等的准确识别和理解,后者是指将印刷或手写文本转换为机器可读数据的能力,常用于文档数字化等。
各项指标中,MiniCPMLlama3-V 2.5的OCR能力尤为突出。面壁团队表示,该模型OCR能力达到SOTA;在端侧多模态综合性能方面超过了Gemini Pro、GPT-4V等千亿参数级的大模型。
如此也就不难理解,MiniCPMLlama3-V 2.5,乃至“抄袭之作”Llama3V,为何能在短时间内登上开源社区的“热搜”。
小模型,大用处
6月11日凌晨,苹果在全球开发者大会上官宣“苹果智能”,新的Siri成为苹果版人工智能的入口。可以想见,新的一轮应用AI化即将到来。
发布会上,苹果的“in-app Action”令人印象深刻。演示中,用户只需要对Siri发出指令,如“整理女儿学习游泳的照片”“安排下午去机场的行程”,苹果智能即可自行整理不同时间拍摄的 “从学习到学会”的照片时间线,以及自动记录行程、设计路线、预测交通状况等。
用苹果的话说,新的Siri是一个强大的、懂得手机的具体使用者个性偏好的个人助理。
目前,苹果尚未披露上述功能是手机端模型还是云端模型、抑或两者协同来实现的,但从演示效果来看,新的Siri能够实时地理解手机界面的信息,据此推理和生成内容,其表现与OpenAI演示GPT4o的人机互动功能时所展现的“同根同源”。
面壁联合创始人、清华大学长聘副教授刘知远还在回应时提到,“(两位本科生)未来还有很长的路,如果知错能改,善莫大焉”。
千亿参数决定了,GPT4o不可能在手机端运行。如前文所说,上述功能涉及的图片识别、理解能力,以及OCR能力,是面壁MiniCPMLlama3-V 2.5的主打功能。
但MiniCPM-Llama3-V 2.5的一大优势是,它本就是面向类似手机等小型终端设备设计的。
官方文档中,面壁演示了该模型在小米14pro上“丝滑”运行。在“最强端侧多模态综合性能”表现下,MiniCPM-Llama3-V 2.5量化后为8G显存,在手机端推理无压力,每秒6—8个令牌的推理速度相当可用。作为对比,基础模型Llama3 8B在手机端的推理速度每秒仅0.5个令牌(一般一个汉字为2—3个令牌)。
当然,必须说明,模型的能力与苹果展示的系统级AI完全不是一回事。但是技术有了,产品化也只是时间问题。以苹果的体量所带来的影响,端侧模型的部署力度和市场前景是值得乐观的。
端侧模型也可以成为“小模型”,入局者同样众多,但面壁智能对小模型格外专注。在言AI必提大模型的过去一年多时间里,这让面壁显得有些特别。
面壁团队告诉南风窗,押注小模型的关键,是发现小模型的能力未必弱于大模型,如MiniCPM-Llama3-V 2.5在“读图”方面展示的,是“用规模1/100的模型,达到了国外知名大模型的同等性能,训练成本也极低”。
另一方面,小模型对应的手机终端,是“离用户最近的地方”。中国电信的统计显示,2023年中国存量手机上的算力总量,是全国的数据中心算力总量的12倍。面壁认为,“未来的端侧算力的总量,一定是要超越我们在云侧的这些算力总量,这些算力一定要充分利用”。
同时,训练小模型不仅仅是冲着端侧市场,它也对训练出更强的大模型有帮助。
“做端侧的模型比做云侧的模型要求更高。”面壁团队认为,原因在于设备本地端的算力和内存部署大模型,相比云侧的大规模服务器集群,要求会更苛刻。
面壁把更多的知识压到一个更小的模型里面去,在设备本地端就可以运行,并取得非常好的效果。“如果我们一定要去训练一个好的云侧模型,那我们用类似的技术,一定可以做到这个世界上最好的云侧模型。”
当然,真正打通这条路径,会是一个漫长的过程。