从OpenAI到DeepSeek,全世界都来赛
作者: 陈冰当人们回忆起2025年春节的时候,一定不会忘记两件事:横空出世的DeepSeek与不断刷新全球影史票房纪录的动画电影《哪吒之魔童闹海》。这本来是风马牛不相及的两件事,但却罕见地引发全球关注,至今热度不减。
这是中国制造再一次带给全球的震撼。从1月20日,国内的AI初创公司深度求索推出了大模型DeepSeek R1,以“低成本、高性能”震撼了整个AI界。在之后相当长的一段时间内,全世界“满城尽带DeepSeek”,DeepSeek登顶全球140个国家应用商店下载榜,引发全球AI生态的巨大改变。全球科技公司包括英伟达、微软、亚马逊、华为、腾讯等迅速推出基于DeepSeek的相关产品服务,OpenAI、百度纷纷改弦易辙,宣布免费、开源。
自1月29日正式上映以来,动画电影《哪吒之魔童闹海》已创造多项纪录:2月6日登顶我国影史票房榜,2月7日登顶全球影史单一市场票房榜……如今,影片票房势如破竹突破百亿元,并在全球展开热映,意味着它在全球影史票房榜上挺进前十,且排名将进一步提升。

DeepSeek的创始人梁文锋和《哪吒之魔童闹海》的导演饺子带领团队,以“我命由我不由天”的反叛精神和纯粹极致的本土原创,形成了足以载入史册的重大突破。特别是DeepSeek,以开源模型和长上下文窗口技术,突破传统AI研发范式,使得推理成本仅为同类产品的几十分之一,却实现了与OpenAI最新模型相近的性能,大幅降低AI应用门槛,加速技术普惠化,使得更多开源模型能够“站在巨人的肩膀上”加速迭代。
一款AI产品和一部动画电影,皆以“叛逆者”的姿态,挑战既有规则,彰显了“不妥协”的韧性。看似分属不同领域,却在精神内核、时代意义与产业影响上形成共振,成为解码中国创新力量的密钥。它们的爆火,本质上正是科技与文艺兴盛的“一体两面”,它们以反叛精神突破桎梏,以本土智慧定义标准,以协同创新开辟新路径,让中国从“文化被解释者”向“规则定义者”转型,最终在全球化浪潮中刻画出崭新的“中国脸谱”,书写出新时代的中国故事!
DeepSeek的三大杀手锏
由于DeepSeek的出圈太过惊艳,大家形容它是“横空出世”。其实,DeepSeek的崛起并非突如其来。在此之前的一年多时间里,DeepSeek已经陆续推出了数个大模型。
2024年1月5日,DeepSeek发布了首个大模型DeepSeek LLM,迈出了在大模型领域的重要一步。同年5月,其宣布开源第二代模型 DeepSeek-V2,凭借出色的性能和极具优势的价格,被众人称为 “AI界拼多多”。不过在当时,中国的大模型行业正处于“百模大战”的混战之中,大厂们呼风唤雨,出尽风头,并没有太多人注意到这家从量化基金行业“跨界”而来的“小公司”。
2024年9月5日,DeepSeek升级推出新模型DeepSeek V2.5。同年12月13日,发布用于高级多模态理解的专家混合视觉语言模型——DeepSeek-VL2。12月26日晚,正式上线全新模型DeepSeek-V3首个版本,并同步开源。DeepSeek在技术报告中透露其训练成本(不包括前期研发成本)仅为 558万美元,远远低于 OpenAI 用于训练 GPT-4o 所用的1亿多美元,只用了 2048 张 H100 的 GPU 集群,再叠加其出色的性能,开始引起全球同行的热议,影响力开始逐步扩大、发酵。
但是,这次DeepSeek的正式大规模“出圈”,则是源自于在2025年1月20日发布的 DeekSeek-R1 推理大模型。该模型以更加出色的逻辑推理能力,达到了接近甚至超过 OpenAI 最新产品 o1 的能力。这一消息瞬间在全球范围内激起千层浪,硅谷的科技媒体开始将其称为新时代的 “斯普特尼克时刻”(1957年10月4日,苏联成功发射世界上第一颗人造卫星“斯普特尼克1号”后,引发美国及西方世界在科技和军事领域感受到的巨大危机感与紧迫感的时刻)。
那么,DeepSeek到底厉害在哪?主要得益于三大突出优势:开源、性能、成本。
清华大学博士、浙江大学金融学系校外导师崔伟指出,跟作为业界性能标杆的OpenAI、ChatGPT 和 Antroupic Claude 相比,DeepSeek-R1 的最大区别在于开源。
所谓“开源”,是一种相对于闭源的软件产品发布方式,即把自己的产品代码通过 Github 等平台全部公开。过去的开源模型总体性能欠佳,而DeepSeek改变了这一点,让全世界的用户、开发者和科研机构,以极低的技术门槛,享受到以接近甚至超过闭源的效果。这一举措彻底打破了以往大型语言模型被少数公司垄断的局面,真正将AI技术的力量交到了广大开发者和研究人员的手中,极大地推动了AI技术的创新。AI界的领军人物之一、Meta 公司首席 AI 科学家、图灵奖得主杨立昆在社交媒体上评论说:不是中国超越了美国,而是开源模式正在超越闭源。
上海市人工智能行业协会秘书长钟俊浩指出,DeepSeek 的团队来自量化交易领域,擅长通过算法优化实现“低资源高回报”。他们从一开始就目标明确地将这种量化基因巧妙地运用到了AI开发中,使 DeepSeek 在模型训练和优化方面独具特色,实际性能对标GPT-o1,有些能力甚至超过o1。
崔伟进一步指出,DeepSeek 在技术上有许多创新。比如说全球首个全开源的混合专家模型(MoE)。这种模型在遇到用户提出的问题时,先拆解、分类,再由相应领域的专家来解答,各司其职,而不需要所有专家集体会诊,从而极大降低计算量。
通过知识蒸馏的方式,将大模型的高级能力有效地转移到更小的模型中,不用堆参数、卷算力,小公司也有了入局参与 AI 竞争的可能。
DeepSeek 采用的是纯强化学习,而不是 GPT 所采用的“人类反馈强化学习”。它纯粹让模型在奖励指引下自我演化,也就是说,完全不需要人类参与。简单来说,你可以把它想象成老师出题,每道题让模型同时回答多次,然后用上面的奖惩规则给每个答案打分,根据追求高分、避免低分的逻辑更新模型。在完全没有人工标注数据的情况下,模型展现出了持续的自我进化能力,出现了所谓的“顿悟时刻”(Aha moment)。
“这一点其实是非常重要的突破。过去限制大模型发展、升级的一个重要瓶颈,就是需要人类的参与,包括数据标注和奖励,现在 DeepSeek 摆脱了这个‘镣铐’,让大模型可以通过自我推理持续进化,那么剩下的就完全是机器效率问题了。这就仿佛是,从过去弯弯曲曲的羊肠小道,走上了一马平川的高速公路。”崔伟说。
DeepSeek 在 R1 技术报告中,专门介绍了自己在蒸馏方面的成果,标题为《小模型也可以干大事》,即用 R1 模型生成的数据,对业界一些主流的开源模型进行调优,获得体积较小的模型。通过知识蒸馏的方式,将大模型的高级能力有效地转移到更小的模型中,不用堆参数、卷算力,小公司也有了入局参与 AI 竞争的可能。
DeepSeek 还有一个大杀器——成本低廉。从参数上看,R1是一个比较小的大模型,总共有6710亿个参数,而且一次推理调用的参数只有370亿个。与之相对应的是,GPT-4的参数有1.76万亿个。调用数据量变小,计算变少,一个最直接的结果就是成本下降。
钟俊浩说,外界盛传DeepSeek的成本只有不到几百万美元,这是不准确的。确切地说这只是模型的预训练成本。早在2021年,梁文锋所在的幻方量化就意识到AI在金融之外的潜力,所以花费巨资购买了GPU计算卡,再加上搭配服务器等各类系统以及运营成本等,研究机构SemiAnalysis出具的报告估算大约在26亿美元。当然,这些硬件还将继续使用,不能全算在R1这个模型身上。“这是一家公司持续几年的大规模投入,一群富有极客精神的顶尖人才持续研发的结果。”
但即便是这样,R1模型600万美元的训练成本,也已经比市面上的同类模型低了一个数量级。比如,Meta去年7月发布的Llama 3.1大模型,训练费用是6000万美元,这在当年已经算是很便宜的大模型了,但它的训练成本依然是R1的10倍。
抛开商业化应用,对于普通人来说,DeepSeek-R1 在对话中可以方便地启动“深度思考”功能,用户既可以看到它的思考过程,又能够获得更加全面、深入的对话结果,毕竟之前没有任何一款大语言模型,让你看到 AI 是如何思考的。就是这一点,让 DeepSeek R1 看起来像真正的 AI。再对比记者自己使用豆包和kimi等其他大模型时,感觉它们的大多数回答就像整理搜索引擎的结果一样无趣,撰写的文章也大多是非常程式化的车轱辘话,完全没有体现出智能性,甚至还一本正经地造了很多子虚乌有的人物和事件出来,让记者不得不花费大量时间去核实真伪。当然,DeepSeek 也被爆出造假,但它仍然是目前市面上我们能够用到的最好使的免费AI。
AI 将带来新一代的技术革命,科技将以指数级增长,从算力到算法,AI 不再是线性的累加,而是几何级的爆发。现在的AI已经越过了1.0聊天机器人时代、2.0推理时代,来到了3.0智能体时代。
三重冲击波
在AI这场全球科技竞争中,中美两国无疑处于最为聚光的舞台中心。随着 ChatGPT、Sora 等AI产品的火爆,美国一度在全球人工智能的发展方面遥遥领先。但随着DeepSeek的横空出世,一场关乎全球技术、市场、政治领域的三重冲击波被引爆。
在全球AI竞赛陷入算力军备竞赛的背景下,DeepSeek 通过“技术瘦身+开源共享”的创新,开辟出高性价比的突围路径。这是一条区别于OpenAI等封闭式AI公司的发展路径。与依赖私有数据和算力垄断的传统路线不同,DeepSeek选择将大模型技术开源,允许全球开发者自由使用、改进和部署其模型。这一策略不仅继承了Transformer架构的技术红利,更充分激活了开源社区的力量——正如GitHub上超2万次代码提交所展现的,全球开发者的集体智慧正在取代传统实验室,成为算法优化和系统迭代的新引擎。
正如Scale AI创始人亚历山大·王(Alexander Wang)在社交平台所言:这标志着全球AI竞赛进入效率革命新纪元。这种低成本替代高投入的创新范式,使得美国精心构筑的技术壁垒遭遇双重瓦解:既无法彻底阻断硬件流通,更难以遏制算法层面的效率跃升。
实际上,自2022年起拜登政府对我国实施史上最严芯片禁令以来,美国不仅禁止英伟达A100/H100等高端GPU对华出口,更将中国AI公司列入实体清单,试图通过精准打击遏制中国人工智能发展。然而这场科技围堵却意外触发反向创新——中国企业被迫从堆算力转向抠效率。DeepSeek以低成本复现最先进模型,以开源对抗闭源,以算法优化对抗算力限制的“三板斧”,仅需中端GPU集群即可运行顶级模型的新范式,引发美国科技界对行业战略方向的重新审视。
中美两国在大模型的发展上,从一开始就采取了不同的策略。在“政策护航+资源整合”的模式下,使得中国在短期内实现了大模型数量的爆发式增长。截至2025年,国内10亿级以上参数大模型超过80个,并在医疗、教育等垂直领域形成比较优势。相比之下,美国更多依赖市场机制与资本活力来驱动创新,并且因为在算法创新与算力基础设施上占据优势,而在技术生态中占据主导权。中国大模型则聚焦“技术实用主义”,注重场景适配,在应用研究和技术落地方面表现突出。