AI新“王炸”，来自东方的神秘力量

AI新“王炸”，来自东方的神秘力量0

AI创意图（制作/本刊记者郭嘉亮）

2024年末，一个中国AI小厂，凭借过硬的技术，获得了全球铺天盖地的关注。

圣诞节过后，海外社交媒体以及技术论坛Github都在讨论一个最新发布的开源大模型，DeepSeek-V3。它被外国网友冠以名号——“来自东方的神秘力量”。

多个评测报告里，DeepSeek-V3在世界开源模型之中处在第一梯队，超过扎克伯格的LLaMa 3.1。拿它比GPT-4o以及Claude 3.5两个最顶尖大模型也毫不逊色，甚至，其在数学推理、代码生成和长文本处理等指标上，表现更强。

这还不是中国AI公司DeepSeek（中文名：深度求索）全部的“拿手好戏”。更让美国硅谷等同行摸不着头脑的是，DeepSeek公布的53页技术报告显示，其训练顶尖大模型只用了2048张H100的GPU集群，花费53天，共计耗费557.6万美元。有专业人员指出，同等水平之下，世界AI大厂至少要用1.6万张以上的GPU，有的甚至需要10万张GPU并行训练。

OpenAI早期成员安德烈·卡帕西感慨，DeepSeek-V3的出现意味着，今后也许不需要大型GPU集群来训练前沿的大语言模型了。Scale AI的华裔CEO亚历山大·王更感慨道，DeepSeek-V3带给美国最大的教训是，“当美国人休息时，中国正在努力工作，最终以更低的成本、更快的速度迎头赶上，变得更强”。

这一以低成本闻名的小团队颠覆了国外AI巨头发展的固定范式，是被外界认为最像（早期）OpenAI的开源机构。事实上，这家小厂位于杭州，创始人从浙江大学毕业，2015年创立了公司幻方量化，几年之间，成为中国少有的突破千亿规模的量化私募机构。

一家金融公司搞出了一个最有气质的AI大模型公司，本身已经令人称奇。与此同时，DeepSeek坚持技术开源，每次模型发布后，都会公布细节满满的技术报告。多年来，他们在AI大模型领域默默斩棘，不谈商业化，不发布新产品，对外保持低调。

“神秘的东方力量”，到底想做什么？

AI界拼多多，来了

2024年末，一则“雷军千万年薪挖角‘95后’AI天才少女”的热帖火遍全网。人们惊讶地发现，名为罗福莉的天才少女，此前供职于在公众面前寂寂无闻的AI公司——DeepSeek深度求索。

事实上，早在这之前，成立刚满一年的DeepSeek就已经在AI业内出了圈。半年多前，2024年5月，DeepSeek发布开源第二代MoE大模型DeepSeek-V2。这是它进入业界主流视野的标志事件。

在这个诚意到位的开源大模型中，DeepSeek-V2没有沿用国际主流的“类LLaMA的Dense结构”和“类Mistral的Sparse结构”，而是对模型框架进行创新，采用MLA（Multi-head Latent Attention，多头潜在注意力）架构。

创新提高了计算效率，降低了AI运行的高昂成本。作为开源大模型，DeepSeek同时公布了使用其API的价目表：每百万tokens输入1元、输出2元（32K上下文）。作为对比，GPT-4 Turbo每百万tokens的输入、输出价格分别为72元、217元。

“真正的国产之光出现了。”AI圈内人士惊喜地评价。从此，DeepSeek有了“AI界拼多多”的外号。

如此低的价格，令国内AI巨头纷纷降价。

与“高大上”的实力形成鲜明反差的是，幻方量化内部人员对南风窗透露，DeepSeek管理“非常扁平”，以技术人员为主。

谁也没能预料到的是，这个重塑业界生态的AI公司，背后是一家量化基金公司。“我们的原则是不贴钱，也不赚取暴利。这个价格也是在成本之上稍微有点利润。”幻方量化实控人、DeepSeek创始人梁文锋在受访时解释。

这是深度求索在2024年第一次引发AI行业震动。OpenAI前政策主管、Anthropic联合创始人Jack Clark评价：“（DeepSeek）雇佣了一批高深莫测的奇才。”

主要操盘手梁文锋，来自广东五线城市，“80后”，毕业于浙江大学电子工程系人工智能方向。2015年，他成立了量化基金公司幻方量化，创始成员多来自浙大。他们共同坚信，利用AI进行风险对冲，计算机也可以像人类一样投资。

梁文锋曾为“量化投资之父”西蒙斯的传记作序。他写道：“每当在工作中遇到困难时，我都想起西蒙斯说的，‘一定有办法对价格建模’。”2018年，量化私募因高频交易策略在股市迅速崛起，幻方成为了中国“量化四大天王”之一，一度管理资金规模超过千亿。

对AI大模型的坚定部署，来自创始人对AI技术的相信，也源于现实业务的需要。2020年，幻方联合创始人徐进在知乎发招募帖，回顾了幻方AI的发展历程：早在2008年开始，幻方创始团队通过AI Lab招募全球顶尖人工智能专家，在经济金融领域开展研究。

随着数据量的爆发式增长，模型越来越庞大，传统的计算集群已经很难适应大型神经网络模型训练的需求。

2020年3月，幻方量化推出了超级计算机“萤火一号”，占地面积相当于一个篮球场，由一个存储集群和一个计算集群组成，并开出百万年薪招聘深度学习工程师。

一年后，2021年，幻方推出了“萤火二号”，投资增加到10亿元，搭载了约1万张英伟达显卡。这一大手笔的投入后来被外界认为，是幻方最有前瞻性的部署之一。

毕竟，仅仅一年后，2022年8月，美国宣布其停止向中国出口A100和H100两款芯片。成立于2023年的DeepSeek，成为了除字节跳动、商汤科技等大厂以外，少有的拥有万卡集群的中国公司。

与“高大上”的实力形成鲜明反差的是，幻方量化内部人员对南风窗透露，DeepSeek管理“非常扁平”，以技术人员为主。公司没有正式的公关人员，也没有对外“融过钱”。创始人梁文锋基本不接受采访，公司也没有对外公关的需求。

团队也秉承着小而美的设计。“原先幻方量化大概有两百人左右，（DeepSeek）其实财务、法务、行政都是幻方量化支持的，大模型团队算法工程团队有八九十人。”该内部人士介绍。

创新的秘诀

是时候看一看这个惊艳国内外的全新开源大模型了。

南风窗记者通过实测发现，DeepSeek-V3在数学、编程领域展示出较好的答题能力，打破过去人们对“AI不擅长数学”的印象。除了传统的文本对话，DeepSeek-V3有一个相比其他AI大模型更特别的功能——“深度思考”。意思是，在AI生成正式答案之前，DeepSeek-V3会展示机器进行推理、“思考”的过程。

例如，对着DeepSeek-V3，记者输入了问题：“请给我影响人们工作积极性的分析框架，并提出面对职业倦怠的解决方案。”

DeepSeek在11秒间生成了答案的思考过程：“嗯。首先，我得想想工作积极性受哪些因素影响。可能有内部因素和外部因素吧。内部因素比如个人的兴趣、价值观、情绪状态等。外部因素包括工作环境、薪酬福利、晋升机会、同事关系、领导风格……”

这些“思考”颇具人类的思维过程。它继续生成道：“我记得马斯洛的需求层次理论，生理、安全、社交、尊重和自我实现需求，都可能影响工作积极性。还有赫兹伯格的双因素理论，区分了保健因素和激励因素。保健因素如工资、工作条件，如果不好会引起不满，但即使好也不会直接激励；激励因素如认可、责任、成长机会，这些才能真正提升工作积极性……”

经历这番“思考”后，DeepSeek-V3生成了八个方面的内容，供人参考。其中也不乏套话，也有些给人灵感的内容。比如，它写道：“‘生活不是我们活过的日子，而是我们记住的日子。’马尔克斯提醒着我们，生活的意义在于我们如何赋予它意义。工作亦是如此。”

涌现的智能不只是大参数暴力美学的体现，更重要的是，这是一个效率奇高、由众多前所未有的设计组合而成的超级工程。

简单而言，DeepSeek实现降本增效，并没有提出前所未有的新技术，而是首次成功将各个技术，通过巧妙地设计与优化，完美地搭配并实现落地。这是一次来自工程层面的胜利。

人们阅读一篇文章时，眼睛和大脑会自然地关注文章中的关键句和段落，忽略不那么重要的信息。多层注意力机制在AI中的作用也非常类似。在模型处理大量数据时，它能够更加有效地识别和处理关键信息和特征。

用该团队自己的话来解释，帮助DeepSeek-V3实现降本的方法无非两个，一是算力需求降低，二是训练AI时间减少。

所谓算力需求降低，一个主要的办法是在训练模型时，对数据进行压缩。压缩之后，运算单元（GPU和CPU）进行运算的数据量就会减少，运算速率也会提升。为此，DeepSeek运用的一个主要办法是——MLA多层注意力架构。

简单的一个例子是，人们阅读一篇文章时，眼睛和大脑会自然地关注文章中的关键句和段落，忽略不那么重要的信息。多层注意力机制在AI中的作用也非常类似。在模型处理大量数据时，它能够更加有效地识别和处理关键信息和特征。一旦AI确定了关键特征，它就可以将特征压缩成一个更小的向量，从而节省运算需求。

除此之外，据腾讯科技报道，DeepSeek-V3还引入了一种名叫FP8混合精度训练的框架，并首次在超大模型上验证了其有效性。

所谓FP8，就是用8个二进制位来表示数字的格式，相比传统的32位（FP32）和16位（FP16）格式，精度低了很多，但是占用空间小，计算快。

而在节约计算时间上，DeepSeek也很有一手。DeepSeek-V3的预训练阶段仅需要266.4万个GPU小时。相较之下，LLaMa 3 405B的大模型预训练花费了共计3080万个GPU小时，大约是DeepSeek-V3的11倍。

这其中的一个创新在于，DeepSeek克服了传统GPU运算中的“计算气泡”。所谓气泡，是指GPU在流水线并行处理中，不同的神经网络层有不同的处理时间。当一个阶段完成其计算任务后，如果另一个阶段还在运算，没准备好接收数据，就会产生等待时间，即“气泡”。“计算气泡”会导致GPU资源的浪费。

而DeepSeek采用了DualPipe跨节点通信优化流水线流程，简单而言，便是通过双重流水线的并行设计，让多个计算任务同时进行，计算气泡大大减少。

AI新“王炸”，来自东方的神秘力量1 — DeepSeek-V3与同类产品的基准性能比较（图/DeepSeek官网）

DeepSeek一系列操作，仿佛一个本身成绩不错的尖子生，在一些无人在意但重要的细节上，追求极致，死磕到底。最终，经过全方位的小步提升，它的水平又上了一个新台阶，如同DeepSeek在官方微信号上的介绍：“不做中庸的事。”

技术理想主义者的追求

凭借硬实力，DeepSeek正吸引着全球的目光与关注。前英伟达机器学习专家Bojan Tunguz公开评价，DeepSeek让人可以看到，所有针对高端半导体的出口禁令，实际上可能以可以想象到的“最坏”方式产生了反效果。“它们似乎迫使中国研究人员变得比正常情况下更加聪明和资源高效。”

AI新“王炸”，来自东方的神秘力量

AI界拼多多，来了

创新的秘诀

技术理想主义者的追求

经典小说推荐

杂志订阅