AI新“王炸”,来自东方的神秘力量
作者: 朱秋雨2024年末,一个中国AI小厂,凭借过硬的技术,获得了全球铺天盖地的关注。
圣诞节过后,海外社交媒体以及技术论坛Github都在讨论一个最新发布的开源大模型,DeepSeek-V3。它被外国网友冠以名号——“来自东方的神秘力量”。
多个评测报告里,DeepSeek-V3在世界开源模型之中处在第一梯队,超过扎克伯格的LLaMa 3.1。拿它比GPT-4o以及Claude 3.5两个最顶尖大模型也毫不逊色,甚至,其在数学推理、代码生成和长文本处理等指标上,表现更强。
这还不是中国AI公司DeepSeek(中文名:深度求索)全部的“拿手好戏”。更让美国硅谷等同行摸不着头脑的是,DeepSeek公布的53页技术报告显示,其训练顶尖大模型只用了2048张H100的GPU集群,花费53天,共计耗费557.6万美元。有专业人员指出,同等水平之下,世界AI大厂至少要用1.6万张以上的GPU,有的甚至需要10万张GPU并行训练。
OpenAI早期成员安德烈·卡帕西感慨,DeepSeek-V3的出现意味着,今后也许不需要大型GPU集群来训练前沿的大语言模型了。Scale AI的华裔CEO亚历山大·王更感慨道,DeepSeek-V3带给美国最大的教训是,“当美国人休息时,中国正在努力工作,最终以更低的成本、更快的速度迎头赶上,变得更强”。
这一以低成本闻名的小团队颠覆了国外AI巨头发展的固定范式,是被外界认为最像(早期)OpenAI的开源机构。事实上,这家小厂位于杭州,创始人从浙江大学毕业,2015年创立了公司幻方量化,几年之间,成为中国少有的突破千亿规模的量化私募机构。
一家金融公司搞出了一个最有气质的AI大模型公司,本身已经令人称奇。与此同时,DeepSeek坚持技术开源,每次模型发布后,都会公布细节满满的技术报告。多年来,他们在AI大模型领域默默斩棘,不谈商业化,不发布新产品,对外保持低调。
“神秘的东方力量”,到底想做什么?
AI界拼多多,来了
2024年末,一则“雷军千万年薪挖角‘95后’AI天才少女”的热帖火遍全网。人们惊讶地发现,名为罗福莉的天才少女,此前供职于在公众面前寂寂无闻的AI公司——DeepSeek深度求索。
事实上,早在这之前,成立刚满一年的DeepSeek就已经在AI业内出了圈。半年多前,2024年5月,DeepSeek发布开源第二代MoE大模型DeepSeek-V2。这是它进入业界主流视野的标志事件。
在这个诚意到位的开源大模型中,DeepSeek-V2没有沿用国际主流的“类LLaMA的Dense结构”和“类Mistral的Sparse结构”,而是对模型框架进行创新,采用MLA(Multi-head Latent Attention,多头潜在注意力)架构。
创新提高了计算效率,降低了AI运行的高昂成本。作为开源大模型,DeepSeek同时公布了使用其API的价目表:每百万tokens输入1元、输出2元(32K上下文)。作为对比,GPT-4 Turbo每百万tokens的输入、输出价格分别为72元、217元。
“真正的国产之光出现了。”AI圈内人士惊喜地评价。从此,DeepSeek有了“AI界拼多多”的外号。
如此低的价格,令国内AI巨头纷纷降价。
与“高大上”的实力形成鲜明反差的是,幻方量化内部人员对南风窗透露,DeepSeek管理“非常扁平”,以技术人员为主。
谁也没能预料到的是,这个重塑业界生态的AI公司,背后是一家量化基金公司。“我们的原则是不贴钱,也不赚取暴利。这个价格也是在成本之上稍微有点利润。”幻方量化实控人、DeepSeek创始人梁文锋在受访时解释。
这是深度求索在2024年第一次引发AI行业震动。OpenAI前政策主管、Anthropic联合创始人Jack Clark评价:“(DeepSeek)雇佣了一批高深莫测的奇才。”
主要操盘手梁文锋,来自广东五线城市,“80后”,毕业于浙江大学电子工程系人工智能方向。2015年,他成立了量化基金公司幻方量化,创始成员多来自浙大。他们共同坚信,利用AI进行风险对冲,计算机也可以像人类一样投资。
梁文锋曾为“量化投资之父”西蒙斯的传记作序。他写道:“每当在工作中遇到困难时,我都想起西蒙斯说的,‘一定有办法对价格建模’。”2018年,量化私募因高频交易策略在股市迅速崛起,幻方成为了中国“量化四大天王”之一,一度管理资金规模超过千亿。
对AI大模型的坚定部署,来自创始人对AI技术的相信,也源于现实业务的需要。2020年,幻方联合创始人徐进在知乎发招募帖,回顾了幻方AI的发展历程:早在2008年开始,幻方创始团队通过AI Lab招募全球顶尖人工智能专家,在经济金融领域开展研究。
随着数据量的爆发式增长,模型越来越庞大,传统的计算集群已经很难适应大型神经网络模型训练的需求。
2020年3月,幻方量化推出了超级计算机“萤火一号”,占地面积相当于一个篮球场,由一个存储集群和一个计算集群组成,并开出百万年薪招聘深度学习工程师。
一年后,2021年,幻方推出了“萤火二号”,投资增加到10亿元,搭载了约1万张英伟达显卡。这一大手笔的投入后来被外界认为,是幻方最有前瞻性的部署之一。
毕竟,仅仅一年后,2022年8月,美国宣布其停止向中国出口A100和H100两款芯片。成立于2023年的DeepSeek,成为了除字节跳动、商汤科技等大厂以外,少有的拥有万卡集群的中国公司。
与“高大上”的实力形成鲜明反差的是,幻方量化内部人员对南风窗透露,DeepSeek管理“非常扁平”,以技术人员为主。公司没有正式的公关人员,也没有对外“融过钱”。创始人梁文锋基本不接受采访,公司也没有对外公关的需求。
团队也秉承着小而美的设计。“原先幻方量化大概有两百人左右,(DeepSeek)其实财务、法务、行政都是幻方量化支持的,大模型团队算法工程团队有八九十人。”该内部人士介绍。
创新的秘诀
是时候看一看这个惊艳国内外的全新开源大模型了。
南风窗记者通过实测发现,DeepSeek-V3在数学、编程领域展示出较好的答题能力,打破过去人们对“AI不擅长数学”的印象。除了传统的文本对话,DeepSeek-V3有一个相比其他AI大模型更特别的功能——“深度思考”。意思是,在AI生成正式答案之前,DeepSeek-V3会展示机器进行推理、“思考”的过程。
例如,对着DeepSeek-V3,记者输入了问题:“请给我影响人们工作积极性的分析框架,并提出面对职业倦怠的解决方案。”
DeepSeek在11秒间生成了答案的思考过程:“嗯。首先,我得想想工作积极性受哪些因素影响。可能有内部因素和外部因素吧。内部因素比如个人的兴趣、价值观、情绪状态等。外部因素包括工作环境、薪酬福利、晋升机会、同事关系、领导风格……”
这些“思考”颇具人类的思维过程。它继续生成道:“我记得马斯洛的需求层次理论,生理、安全、社交、尊重和自我实现需求,都可能影响工作积极性。还有赫兹伯格的双因素理论,区分了保健因素和激励因素。保健因素如工资、工作条件,如果不好会引起不满,但即使好也不会直接激励;激励因素如认可、责任、成长机会,这些才能真正提升工作积极性……”
经历这番“思考”后,DeepSeek-V3生成了八个方面的内容,供人参考。其中也不乏套话,也有些给人灵感的内容。比如,它写道:“‘生活不是我们活过的日子,而是我们记住的日子。’马尔克斯提醒着我们,生活的意义在于我们如何赋予它意义。工作亦是如此。”
涌现的智能不只是大参数暴力美学的体现,更重要的是,这是一个效率奇高、由众多前所未有的设计组合而成的超级工程。
简单而言,DeepSeek实现降本增效,并没有提出前所未有的新技术,而是首次成功将各个技术,通过巧妙地设计与优化,完美地搭配并实现落地。这是一次来自工程层面的胜利。
人们阅读一篇文章时,眼睛和大脑会自然地关注文章中的关键句和段落,忽略不那么重要的信息。多层注意力机制在AI中的作用也非常类似。在模型处理大量数据时,它能够更加有效地识别和处理关键信息和特征。
用该团队自己的话来解释,帮助DeepSeek-V3实现降本的方法无非两个,一是算力需求降低,二是训练AI时间减少。
所谓算力需求降低,一个主要的办法是在训练模型时,对数据进行压缩。压缩之后,运算单元(GPU和CPU)进行运算的数据量就会减少,运算速率也会提升。为此,DeepSeek运用的一个主要办法是——MLA多层注意力架构。
简单的一个例子是,人们阅读一篇文章时,眼睛和大脑会自然地关注文章中的关键句和段落,忽略不那么重要的信息。多层注意力机制在AI中的作用也非常类似。在模型处理大量数据时,它能够更加有效地识别和处理关键信息和特征。一旦AI确定了关键特征,它就可以将特征压缩成一个更小的向量,从而节省运算需求。
除此之外,据腾讯科技报道,DeepSeek-V3还引入了一种名叫FP8混合精度训练的框架,并首次在超大模型上验证了其有效性。
所谓FP8,就是用8个二进制位来表示数字的格式,相比传统的32位(FP32)和16位(FP16)格式,精度低了很多,但是占用空间小,计算快。
而在节约计算时间上,DeepSeek也很有一手。DeepSeek-V3的预训练阶段仅需要266.4万个GPU小时。相较之下,LLaMa 3 405B的大模型预训练花费了共计3080万个GPU小时,大约是DeepSeek-V3的11倍。
这其中的一个创新在于,DeepSeek克服了传统GPU运算中的“计算气泡”。所谓气泡,是指GPU在流水线并行处理中,不同的神经网络层有不同的处理时间。当一个阶段完成其计算任务后,如果另一个阶段还在运算,没准备好接收数据,就会产生等待时间,即“气泡”。“计算气泡”会导致GPU资源的浪费。
而DeepSeek采用了DualPipe跨节点通信优化流水线流程,简单而言,便是通过双重流水线的并行设计,让多个计算任务同时进行,计算气泡大大减少。

DeepSeek一系列操作,仿佛一个本身成绩不错的尖子生,在一些无人在意但重要的细节上,追求极致,死磕到底。最终,经过全方位的小步提升,它的水平又上了一个新台阶,如同DeepSeek在官方微信号上的介绍:“不做中庸的事。”
技术理想主义者的追求
凭借硬实力,DeepSeek正吸引着全球的目光与关注。前英伟达机器学习专家Bojan Tunguz公开评价,DeepSeek让人可以看到,所有针对高端半导体的出口禁令,实际上可能以可以想象到的“最坏”方式产生了反效果。“它们似乎迫使中国研究人员变得比正常情况下更加聪明和资源高效。”