中国如何突破算力“卡脖子”

作者: 汪玉 汝鹏 谢其军

中国如何突破算力“卡脖子”0

2023年7月,上海世博展览馆,2023世界人工智能大会上AIGC大模型应用受到关注,一些观众在商汤展区与AI绘画生成艺术互动。图/视觉中国

今年以来,以ChatGPT为代表的AI大模型的出现标志着一个崭新时代的开启。大模型技术的快速迭代催生出一批如Midjourney、Character.AI等类型的AIGC(Artificial Intelligence Generated Content)应用,为办公、电商、教育、医疗和法律等领域带来了革命性的改变。

复杂的AI算法需要大量的计算资源来实现,算力是支撑AI算法运行的基础。AI芯片是专门用于处理AI计算相关任务的协处理器,为AI算法提供了高效的算力,可以显著提升深度学习等AI算法模型的训练和推理效率。

AIGC产业的发展,对算力的需求不断提升,但中国在算力领域面临诸多挑战。

2023年10月17日,美国商务部工业安全局(BIS)公布最新半导体管制规则(下称“1017新规”),升级了BIS于2022年10月7日发布的《对向中国出口的先进计算和半导体制造物项实施新的出口管制》(下称“107规则”)。1017新规分为三个部分:一是调整先进计算芯片出口管制规则,二是调整半导体制造设备出口管制规则;三是公布了新增的实体清单企业名单。包括A100、H100、A800、H800等在内的GPU芯片对华出口都将受到影响。A100、H100是英伟达的高性能GPU,广泛应用于AI、数据分析等工作场景。A800和H800是A100、H100的替代产品,也即在去年美国107规则下,英伟达特供给中国大陆市场的,降低传输速率以符合规定的替代产品,但在今年1017新规后被禁售。上述产品均是目前最适合AI算法研发和部署的高算力芯片。

中国在AI领域对算力有着强大的需求,依赖高性能AI芯片来支持其应用和研究。1017新规取消了“互联带宽”参数限制,同时新增“性能密度”的参数限制。该新规旨在进一步收窄高端计算芯片的出口范围;在大模型AI时代,限制中国计算能力,将会限制AIGC在中国的发展和创新。

本文将逐一解读中国算力面临的主要挑战,包括芯片架构的性能提升到达瓶颈、现有芯片的算力利用率不足、美国出口管制带来的供应链风险。进而分析破局之策,在软件方面优化模型和算法,降低算力需求;在硬件方面开发新架构,提高AI芯片能效比;在系统方面协同整合软硬件,提升系统效率,减少能源消耗;在产业方面加强生态链建设与多方协作,推动共同投入。

AIGC迭代加快

当前中国大模型技术仍处于研发和迭代的早期阶段,但产业潜力巨大。中国的高校、互联网科技企业、初创科技公司等都纷纷加入AI大模型的浪潮,已诞生超过100个各种类型的大模型。

根据艾瑞咨询的预测,2023年中国的AIGC产业规模将达到143亿元,未来几年增长迅速。预计到2028年,中国AIGC产业规模将达到7202亿元,在重点领域和关键场景完成技术落地。

AIGC技术在NLP(自然语言处理)和CV(计算机视觉)领域经历了显著的演进。AIGC技术和能力的提升,会为各行业带来更多的创新和应用机会,主要表现在:

从单一任务到多任务。初始AIGC技术主要关注单一任务,如自然语言生成、图像生成和翻译。但未来趋势是训练模型同时处理多种任务,并提高模型的泛化能力。

从单模态到多模态。单模态生成式模型通常专注于一种数据类型,如文本或图像。多模态生成式模型能够同时处理多种数据类型,如文本和图像的联合生成,为增强现实、智能对话系统和自动文档生成等多领域的应用带来新机会。

从通用模型到垂域模型。通用生成式模型在各领域表现出色,但未来趋势是朝着更专业化和垂域化的方向前进。

算力供应不足

随着AIGC的发展,模型越来越复杂,参数量越来越大,导致算力需求的增长速度已远超芯片的性能增长速度。在AIGC算法模型部署早期,算力消耗主要集中于大模型训练,但随着大模型用户量增长,推理成本将成为主要算力开支。

AIGC对算力的具体需求,以三个典型应用场景加以说明:

若Google采用GPT等大模型用于推荐搜索:Google每天接受搜索请求35亿次,按照GPT-4 API 0.14元/次的价格,Google每年需要支付1788亿元人民币的API费用。若采用自建算力集群的方案,需要提供每秒约10万次的峰值访问能力,一轮GPT-4对话涉及200多万亿次浮点运算,在计算资源利用率约60%的情况下,需要约10万块A100集群。

若每个MicrosoftOffice用户都采用大模型用于办公:微软使用基于大模型的Copilot赋能办公软件、操作系统与代码编辑场景,有潜力重构未来办公场景。未来的软件开发、文案写作、艺术创作将在与AI的频繁互动对话中完成。根据信息技术研究公司的报告《中国数据分析与AI技术成熟度曲线》,中国的学生与白领人群达到2.8亿人,按每人每天10次的访问需求计算,每年具有1.02万亿次访问需求,需要8万块A100的算力支持。

若人人都有一个定制化的AI个人助理(大模型原生应用),AI个人助理向中国12亿网民提供定制化的教育、医疗、政务、财务管理等服务。在每人10次的日访问条件下,需要34万块A100算力支持。

根据AMD全球CEO(首席执行官)苏姿丰在2023年的主题演讲,从单一算力中心的角度看,过去十年,超级计算机发展迅速,芯片架构创新与制造工艺的进步使得计算机性能每1.2年翻一番。而计算机的能量效率(即单位能量下的计算次数)增长速度仅为每2.2年翻一番。在保持这个趋势的情况下,到2035年,一个高性能的超级计算机功率将达到500MW,约为半个核电站的发电功率。

AIGC严重依赖于高算力,但目前中国在算力方面却遇到了极大挑战。

1)推动芯片性能提升的摩尔定律难以继续维系。

半导体器件的尺寸已逼近物理极限,而制程进步带来的性能提升幅度在收窄。芯片能效比增速明显放缓,更高的晶体管密度也带来更大的散热挑战与更低的生产良率。目前AIGC对算力的需求远远超过AI芯片的发展速度,现有的芯片硬件性能的提升速度难以满足算法模型急剧增长的算力需求,需要新的硬件架构突破。

2)GPU利用率低。

大模型在处理大量数据时,由于算力调度、系统架构、算法优化等诸多问题,很多大模型企业的GPU算力利用率不足50%,造成了巨大的浪费。

3)软件生态不成熟。

目前主流的AI算法都是基于英伟达CUDA进行适配,英伟达的CUDA软件自2006年问世以来,经过十多年的积累,形成了包括驱动、编译、框架、库、编程模型等在内的成熟生态。目前主流AIGC算法训练,大多基于CUDA生态进行开发,壁垒极强。AIGC公司若要更换英伟达GPU,面临极高的迁移成本和稳定性的风险。因此国产GPGPU产品想要大规模部署,软件生态是一个极大挑战。

图1:2023年部分中国厂商自研大模型盘点

中国如何突破算力“卡脖子”1
资料来源:本文作者整理

图2:2022年-2030年中国AIGC产业规模

中国如何突破算力“卡脖子”2
资料来源:艾瑞咨询研究院

图3:GPU Day*:单张RTX 3090,FP32峰值算力,计算一天

中国如何突破算力“卡脖子”3
资料来源:根据模型参数与算力由清华实验室测算

4)高性能AI芯片供应量不足。

大算力芯片是大模型研发的基础设施,英伟达高性能GPU芯片具有两个核心优势:一是更大的显存配置与通信带宽。高带宽的芯片之间互联对提升大模型训练效率至关重要。二是更高的大模型训练耐用性。消费显卡面向个人应用,故障率和稳定性远差于服务器版本。千亿参数大模型训练需要数千GPU长周期同步运算,任何单一显卡的故障均需要中断训练、检修硬件。相比于消费级显卡或其他芯片,高性能GPU可以减短60%-90%大模型训练周期。

然而,英伟达GPU产能不足,且美国逐渐加码对中国高性能芯片禁售力度。去年10月,美国对出口中国的AI芯片实施带宽速率限制,其中,涉及英伟达A100和H100芯片。此后,英伟达向中国企业提供替代版本A800和H800。根据1017新规,英伟达包括A800和H800在内的芯片对华出口都将受到影响,国内的高性能AI芯片供给出现严重短缺。

目前大模型训练主要依赖于英伟达高性能GPU,禁售对于国内大模型研发进度,带来极大影响。例如,使用符合1017新规的V100 GPU替代A100,算力和带宽的下降将使得大模型训练时间增加3到6倍,显存的下降也将使能训练模型的最大参数量下降2.5倍。

5)自研AI芯片难以量产。

美国将先进芯片的出口许可证要求增加到22个国家。继先前限制EUV光刻机出口到中国之后,也开始限制更低一代的DUV光刻机。此外,美商务部将中国本土领先的GPU芯片企业加入到实体清单中,这将会导致国内自研芯片难以使用最新的工艺制程进行流片量产。

6)高能源消耗带来的电力系统压力。

算力中心的计算、制冷与通信设施均为高能耗硬件。中国电子节能技术协会数据显示,目前中国数据中心的耗电量平均增长率超过12%,2022年全国数据中心耗电量达2700亿千瓦时,占全社会用电量的3%。在大模型时代,中国数据中心耗电量会加大增长幅度,并在2025年预计达到4200亿千瓦时耗电量,约占社会总用电量的5%。数据中心的电力供应以及系统散热,都将给现有的电力系统带来很大的压力。

技术如何破局?

面对不利局面,中国的算力瓶颈需要以系统观念统筹谋划,逐步突破,主要包含技术和产业两个层面,方式主要是“开源”和“节流”。

技术层面,我们的建议如下:

1)发展高效大模型。

通过精简模型参数的方式降低对算力的需求。压缩即智能,大模型旨在对数据进行无损压缩。今年2月28日OpenAI核心研发人员Jack Rae表示,通用AI(AGI)的目标是实现对有效信息最大限度的无损压缩。随着大模型发展,在AI复杂性提升的同时,相同参数规模下,算法模型能力也会持续提升。未来或出现具有更高信息压缩效率的大模型,以百亿级参数规模获取媲美万亿级参数规模GPT-4的算法能力。

此外,大模型可以面向特定业务场景做领域适配和能力取舍,减少算力开支。例如在政务问答场景中,模型可以谢绝回答非业务请求。原本依靠千亿参数通用模型才可以解决的任务,有望使用百亿参数量模型即可完成。

2)基于现有模型的软件优化。

如果将GPT-3前后的AI发展划分成1.0与2.0时代,那么AI 1.0时代的软件优化核心任务是使深度学习模型可以在边缘、端侧的低功耗设备上运行,实现自动化与智能化,以在AIoT、智能安防与智能汽车等领域大面积应用。而AI 2.0时代的模型压缩则是规模化、集中化算力需求的整体优化,应用场景需要从“中心”侧开始,然后向边、端侧辐射。

上一篇 点击页面呼出菜单 下一篇