中国大公司竞逐GPU

作者: 张家豪

中国大公司竞逐GPU0

从CPU到GPU,字节采购量的变化,也反映了如今大型科技公司的计算需求中,智能计算对通用计算的赶超。图/视觉中国

2022年下半年,生成式AI爆火的同时,硅谷著名风险资本a16z走访了数十家AI创业公司和大科技公司。其发现,创业公司转手就把80%-90%的早期融资款送给了云计算平台,以训练自己的模型。其估算,即便这些公司的产品成熟了,每年也得把10%-20%的营收送给云计算公司,相当于一笔“AI税”。

这带来了在云上提供模型能力和训练服务,把算力租给其他客户和创业公司的大市场。仅在国内,现在就至少有数十家创业公司和中小公司在自制复杂大语言模型,它们都得从云计算平台租GPU(Graphics Processing Unit,图形处理器)。据a16z测算,一个公司一年的AI运算开支只有超过5000万美元,才有足够的规模效应支撑自己批量采购GPU。

据了解,今年春节后,拥有云计算业务的中国各互联网大公司都向英伟达下了大单。字节今年向英伟达订购了超过10亿美元的GPU,另一家大公司的订单也至少超过10亿元人民币。

仅字节一家公司今年的订单可能已接近英伟达去年在中国销售的商用GPU总和。去年9月,美国政府发布对A100、H100(英伟达最新两代数据中心商用GPU)的出口限制时,英伟达曾回应称这可能影响去年四季度其在中国市场的4亿美元(约合28亿元人民币)潜在销售。以此推算,2022年全年英伟达数据中心GPU在中国的销售额约为100亿元人民币。

相比海外巨头,中国大科技公司采购GPU更为急迫。过去两年的降本增效中,一些云计算平台减少了GPU采购,储备不足。此外,谁也不敢保证,今天能买的高性能GPU,明天会不会就受到新的限制。

从砍单到加购,同时内部腾挪

今年初之前,中国大型科技公司对GPU的需求还不温不火。

GPU在中国大型互联网科技公司中主要有两个用途:一是对内支持业务和做一些前沿AI研究,二是把GPU放到云计算平台上对外售卖。

一名字节人士告诉《财经》记者,2020年6月OpenAI发布GPT-3后,字节就曾训练了一个数十亿参数的生成式语言大模型,当时主要使用的GPU是A100前代产品V100。由于参数规模有限,这个模型生成能力一般,字节当时看不到它的商业化可能性,“ROI(投资回报率)算不过来”,这次尝试不了了之。

阿里也曾在2018年-2019年积极采购GPU。一位阿里云人士称,当时阿里的采购量至少达到上万块规模,购买的型号主要是V100和英伟达更早前发布的T4。不过这批GPU中只有约十分之一给到了达摩院用作AI技术研发。2021年发布万亿参数大模型M6后,达摩院曾披露训练M6使用了480块V100。

阿里当时购买的GPU,更多给到了阿里云用于对外租赁。但包括阿里云在内,一批中国云计算公司都高估了中国市场的AI需求。一位科技投资人称,大模型热潮之前,国内主要云厂商上的GPU算力不是紧缺,而是愁卖,云厂商甚至得降价卖资源。去年阿里云先后降价六次,GPU租用价下降超两成。

在降本增效,追求“有质量的增长”与利润的背景下,据了解,阿里在2020年之后收缩了GPU采购规模,腾讯也在去年底砍单一批英伟达GPU。

然而没过多久后的2022年初,ChatGPT改变了所有人的看法,共识很快达成:大模型是不容错过的大机会。

各公司创始人亲自关注大模型进展:字节跳动创始人张一鸣开始看人工智能论文;阿里巴巴董事局主席张勇接手阿里云,在阿里云峰会发布阿里大模型进展时称,“所有行业、应用、软件、服务,都值得基于大模型能力重做一遍”。

一名字节人士称,过去在字节内部申请采购GPU时,要说明投入产出比、业务优先级和重要性。而现在大模型业务是公司战略级别新业务,暂时算不清ROI也必须投入。

研发自己的通用大模型只是第一步,各公司的更大目标是推出提供大模型能力的云服务,这是真正可以匹配投入的大市场。

微软的云服务Azure在中国云计算市场本没有太强存在感,入华十年来主要服务跨国公司的中国业务。但现在客户得排队等待,因为它是OpenAI商业化的唯一云代理商。

阿里在4月的云峰会上再次强调MaaS(模型即服务)是未来云计算趋势,在开放自研的通用基础模型“通义千问”测试之外,还发布了一系列帮助客户在云上训练、使用大模型的工具。不久后腾讯和字节火山引擎也先后发布自己的新版训练集群服务。腾讯称用新一代集群训练万亿参数的混元大模型,时间可被压缩到四天;字节称它们的新集群支持万卡级大模型训练,国内数十家做大模型的企业,多数已在使用火山引擎。

所有这些平台使用的要么是英伟达A100、H100GPU,要么是去年禁令后英伟达专门推出的减配版A800、H800,这两款处理器带宽分别是原版的约四分之三和约一半,避开了高性能GPU的限制标准。

围绕H800和A800,中国科技大公司开始了新一轮下单竞争。

一名云厂商人士称,字节、阿里等大公司主要是和英伟达原厂直接谈采购,代理商和二手市场难以满足它们的庞大需求。

英伟达会按目录价,根据采购规模谈一个折扣。据英伟达官网,A100售价为1万美元/块(约7.1万元人民币),H100售价为3.6万美元/块(约25.7万元人民币);据了解,A800和H800售价略低于原版。

中国公司能否抢到卡,更多是看商业关系,比如以往是不是英伟达的大客户。“你是和中国英伟达谈,还是去美国找老黄(黄仁勋,英伟达创始人、CEO)直接谈,都有差别。”一位云厂商人士说。

部分公司也会和英伟达进行“业务合作”,在购买抢手的数据中心GPU时,也购买其他产品,以争取优先供应。这就像爱马仕的配货,如果你想买到热门的包,往往也得搭配几万元的衣服、鞋履。

综合我们获得的行业信息,字节今年的新下单动作相对激进,超过10亿美元级别。

一位接近英伟达的人士称,字节到货和没到货的A100与H800总计有10万块。其中H800今年3月才开始投产,这部分芯片应来自今年的加购。据了解,以现在的排产进度,部分H800要到今年底才能交货。

字节跳动2017年开始建设自己的数据中心。曾经的数据中心更依赖适应所有计算的CPU,直到2020年,字节采购英特尔CPU的金额还高于英伟达GPU。字节采购量的变化,也反映了如今大型科技公司的计算需求中,智能计算对通用计算的赶超。

据了解,某互联网大厂今年至少已给英伟达下了万卡级别订单,按目录价估算价值超10亿元人民币。

腾讯则率先宣布已用上H800,腾讯云在今年3月发布的新版高性能计算服务中已使用了H800,并称这是国内首发。目前这一服务已对企业客户开放测试申请,这快于大部分中国公司的进度。

据了解,阿里云也在今年5月对内提出把“智算战役”作为今年的头号战役,并设立三大目标:机器规模、客户规模和营收规模;其中机器规模的重要指标就是GPU数量。

新的GPU到货前,各公司也在通过内部腾挪,优先支持大模型研发。

能一次释放较多资源的做法是砍掉一些没那么重要,或短期看不到明确前景的方向。“大公司有好多半死不活的业务占着资源。”一位互联网大公司AI从业者说。

今年5月,阿里达摩院裁撤自动驾驶实验室:300多名员工中,约三分之一划归菜鸟技术团队,其余被裁,达摩院不再保留自动驾驶业务。研发自动驾驶也需要用高性能GPU做训练。这一调整可能与大模型无直接关系,但确实让阿里获得了一批“自由GPU”。

字节和美团,则直接从给公司带来广告收入的商业化技术团队那里匀GPU。

据《财经》记者了解,今年春节后不久,字节把一批原计划新增给字节商业化技术团队的A100匀给了TikTok产品技术负责人朱文佳。朱文佳正在领导字节大模型研发。而商业化技术团队是支持抖音广告推荐算法的核心业务部门。

美团在今年一季度左右开始开发大模型。据了解,美团不久前从多个部门调走了一批80G显存顶配版A100,优先供给大模型,让这些部门改用配置更低的GPU。

财力远不如大平台充裕的B站对大模型也有规划。据了解,B站此前已储备了数百块GPU。今年,B站一方面持续加购GPU,一方面也在协调各部门匀卡给大模型。“有的部门给10块,有的部门给20块。”一位接近B站的人士称。

字节、美团、B站等互联网公司,原本支持搜索、推荐的技术部门一般会有一些GPU资源冗余,在不伤害原有业务的前提下,它们现在都在“把算力水分挤出来”。

不过这种拆东补西的做法能获得的GPU数量有限,训练大模型所需的大头GPU还是得靠各公司过去的积累和等待新GPU到货。

全世界都在抢算力

对英伟达数据中心GPU的竞赛也发生在全球范围。不过海外巨头大量购买GPU更早,采购量更大,近年的投资相对连续。

2022年,Meta和甲骨文就已有对A100的大投入。Meta在去年1月与英伟达合作建成RSC超级计算集群,它包含1.6万块A100。同年11月,甲骨文宣布购买数万块A100和H100搭建新计算中心。现在该计算中心已部署了超3.27万块A100,并陆续上线新的H100。

微软自从2019年第一次投资OpenAI以来,已为OpenAI提供数万块GPU。今年3月,微软又宣布已帮助OpenAI建设了一个新计算中心,其中包括数万块A100。Google在今年5月推出了一个拥有2.6万块H100的计算集群Compute EngineA3,服务想自己训练大模型的公司。

中国大公司现在的动作和心态都比海外巨头更急迫。以百度为例,它今年向英伟达新下的GPU订单高达上万块。数量级与Google等公司相当,虽然百度的体量小得多,其去年营收为1236亿元人民币,只有Google的6%。

据了解,字节、腾讯、阿里、百度这四家中国投入AI和云计算最多的科技公司,过去A100的积累都达到上万块。其中字节的A100绝对数最多。不算今年的新增订单,字节A100和前代产品V100总数接近10万块。

成长期公司中,商汤今年也宣称,其“AI大装置”计算集群中已总共部署了2.7万块GPU,其中有1万块A100。连看似和AI不搭边的量化投资公司幻方之前也购买了1万块A100。

仅看总数,这些GPU供各公司训练大模型似乎绰绰有余——据英伟达官网案例,OpenAI训练1750亿参数的GPT-3时用了1万块V100,训练时长未公开;英伟达测算,如果用A100来训练GPT-3,需要1024块A100训练一个月,A100相比V100有4.3倍性能提升。但中国大公司过去采购的大量GPU要支撑现有业务,或放在云计算平台上售卖,并不能自由地用于大模型开发和对外支持客户的大模型需求。

这也解释了中国AI从业者对算力资源估算的巨大差别。清华智能产业研究院院长张亚勤4月底参加清华论坛时说,“如果把中国的算力加1块,相当于50万块A100,训练五个模型没问题。”AI公司旷视科技CEO(首席执行官)印奇接受《财新》采访时则说:中国目前可用作大模型训练的A100总共只有约4万块。

主要反映对芯片、服务器和数据中心等固定资产投资的资本开支,可以直观说明中外大公司计算资源的数量级差距。

最早开始测试类ChatGPT产品的百度,2020年以来的年资本开支在8亿到20亿美元之间,阿里在60亿-80亿美元之间,腾讯在70亿-110亿美元之间。同期,亚马逊、Meta、Google、微软这四家自建数据中心的美国科技公司的年资本开支最少均超过150亿美元。

上一篇 点击页面呼出菜单 下一篇