英伟达A股映射
作者: 王锐全球AI算力龙头英伟达(NVIDIA)跻身万亿美元市值俱乐部。
5月24日,图形处理器(GPU)芯片龙头英伟达公布了2024财年第一季度(截至2023年4月30日)的财报,该季度营收为71.92亿美元,较上年同期的82.88亿美元下降13%,较上一财季的60.51亿美元增长19%;净利润为20.43亿美元,同比增长26%,环比增长44%。
真正让市场震惊的是英伟达对下一个季度的预期:英伟达预计2024财年第二财季营收将达110亿美元,上下浮动2%,同比将增长64%。这一业绩展望远超分析师此前预期,并将创下英伟达史上最高单季销量纪录。据雅虎财经频道提供的数据显示,30名分析师此前平均预期英伟达第二财季营收将达71.5亿美元。
财报发布后,英伟达盘后最高涨幅一度高达30%。5月25日,英伟达股价保持高开高走,市值在一个交易日内暴涨1840亿美元,达9392亿美元;5月30日,英伟达盘中市值一度突破1万亿美元,成为继续苹果(AAPL)、微软(MSFT)、谷歌母公司字母表(GOOGL)以及亚马逊(AMZN)之后,美国第五家市值突破1万亿美元的上市公司。
民生证券表示,英伟达单日股价大涨,其核心本质在于AI大模型带来划时代的变革已成共识;算力的清晰路径逐步被大众认可,在最为确定的算力侧率先兑现。
AI芯片厂商成为本轮人工智能浪潮的最大赢家。在AI发展中,GPU担任的运算器角色变得越来越重要,英伟达则掌握着全球多家科技公司“算力命脉”。
“生成式AI推动了计算需求的指数级增长,这种需求正在快速过渡到GPU计算市场。”英伟达首席财务官克雷斯(Colette Kress)在财报电话会上表示,在训练和部署生成式AI的过程中,使用GPU的数据中心效果更好、更通用,也更低碳节能,在GPU方面的领先技术给英伟达的产品需求带来了巨大的上升空间。
英伟达凭借在GPU上积累的全球领先计算能力,推出“GPU+CPU(中央处理器)+DPU(数据中心处理器)”的“三芯”战略。在构建产品矩阵的同时,“三芯”协同将性能进一步提升。
当地时间5月29日,在COMPUTEX2023上,英伟达创始人兼CEO黄仁勋(Jensen Huang)向传统CPU服务器集群发起“挑战”,“CPU扩展的时代已结束,新计算时代引爆点已到来。”黄仁勋在大会上宣布,“我们已到达生成式AI引爆点。从此,全世界的每个角落,都会有计算需求。”
此次大会上,英伟达宣布推出重磅新品超级计算机DGXGH200,这款数据中心产品被认为是当今全球性能最强的运算器产品,可以满足训练AIGC所需要的“超大规模大模型”,欲重新定义新计算时代。
在全球掀起AI产业革命浪潮,英伟达等科技股飙升之际,映射在国内A股市场,AI行情亦成为2023年上半年重要的主线。
华创证券表示,ChatGPT的问世引爆新一轮AI浪潮,云端计算、存储数据量激增,带动上游AI算力、存力芯片快速增长承接新增需求;同时,受益于工业互联网、车联网自动驾驶、移动互联网等产业的蓬勃发展,边缘计算的数据量和算力需求也在不断扩大,未来将协同云计算共同驱动AI芯片行业成长。
算力爆发
数据、算力和算法是AI的三大基石。
随着大语言模型能力不断升级,生成式AI带来个人生产力革命,大语言模型爆发出巨大的应用潜力,模型参数持续提升带来更高的模型训练算力需求,大模型的商业化落地催生了更大的推理算力和通信能力需求,算力芯片的投资机会确定性相对较高。
5月26日,华为昇腾计算业务CTO周斌表示,人工智能大模型浪潮带来算力需求的快速增加,并且这个需求是有价值的,不是泡沫。“AI算力行业出现一个新定律,叫做AI算力增长曲线,这个定律告诉我们大概每隔4个月,AI计算需求就会翻倍。这比‘摩尔定律’更有效地体现在算力需求上。”
此前,按照华为的预计,到2030年通用计算能力将增长10倍,AI计算能力将增长500倍。
国盛证券也表示,大模型大发展背景下,算力的追求没有天花板,随着国内外算力产业链的相互验证,算力景气度得到验证,将打消部分投资者观望情绪,当前时间点仍然处于历史级产业大趋势的起点。
中信建投证券认为,人工智能模型的算力需求大致可以分为三个阶段。第一个阶段为2010年以前,机器深度学习尚未得到广泛应用,主要还是基于统计的方法进行模型搭建,算力需求的增长相对缓慢,大致每20个月翻一倍。
第二阶段为2010-2015年,深度学习模型在传统的自然语言、计算机视觉等领域开始战胜支持向量机等算法,深度学习模型开始成为主流算法,随着神经网络的层数和参数量的提升,算力需求的增长速度也显著加快,大致每6个月翻一倍。
第三阶段为2016年之后,人工智能模型开始进入巨量参数时代,算力需求显著提升。根据英伟达的算力统计显示,自2017年之后,以Transformer模型为基础架构的大模型算力需求提升大致是每2年提升275倍。
2022年11月,ChatGPT上线并迅速火爆全球,引发了全世界领先科技公司和初创企业之间的算力军备竞赛,他们开始争先恐后地购买英伟达的H100,因为它是“世界上第一款为生成式AI而生的计算机芯片。
黄仁勋对此表示:“2022年,我们经历了相当艰难的一年。但随着OpenAI聊天机器人ChatGPT的问世,我们又在一夜之间力挽狂澜。ChatGPT在极短的时间内就创造出巨大的需求。”
图1:海外头部科技公司市值走势

中信建投认为,以ChatGPT为代表的人工智能模型表现出高度的智能化和拟人化,背后的因素在于自然语言大模型表现出来的涌现能力和泛化能力,模型参数到达千亿量级后,可能呈现性能的跨越式提升,称之为涌现能力;在零样本或者少样品学习情景下,模型仍表现较强的迁移学习能力,称之为泛化能力。两种能力都与模型参数量密切相关,人工智能模型参数巨量化是重要的行业发展趋势。
自GPT-3模型之后,大规模的自然语言模型进入了千亿参数时代,2021年之后涌现出诸多千亿规模的自然语言模型,模型的训练算力显著增加。GPT-3模型参数量为1750亿个,训练算力需求为3.14×1023FLOPs(每秒浮点运算次数),当前各种预训练语言模型还在快速的更新迭代,不断刷新自然语言处理任务的表现记录,单一模型的训练算力需求也不断突破新高。
中泰证券也认为,生成式AI主要依赖于人工智能大模型,具有参数多、包含数据量大等特点。这些模型通常包含数十亿至数万亿个参数,需要庞大的数据集进行训练,根据《AIGC发展报告2023》数据,国外主要AIGC预训练模型参数规模在6.4亿至5400亿之间,平均参数量高达1541亿。未来大模型的训练数据不仅限于文字,还可以包括图像、视频等多种形式。与自然语言处理模型相比,多模态模型训练数据为图像、视频等,规模远大于语言类模型,因此需要更多的计算资源和算力来支持模型的训练和推理。
算力需求激增,AI应用发展仍需跨越当前算力鸿沟。根据OpenAI数据,2012-2018年期间,人工智能训练任务中使用的算力正呈指数级增长,速度为每3.5个月翻一倍,人们对于算力的需求增长了超过30万倍。相比之下,摩尔定律是每18个月翻倍,如果是以摩尔定律的速度,这期间只会有12倍的增长。根据IDC数据,中国AI算力规模将保持高速增长,预计到2026年将达1271.4EFLOPS,CAGRA(2022-2026年)达52.3%。
算力需求的快速增长与芯片计算能力的增长形成剪刀差,推动AI芯片市场规模不断发展。当前模型计算量的增长远超人工智能硬件算力的增长,二者性能增长之间的不匹配,剪刀差的扩大将带来对算力基础设施供给需求的不断增长,以及算力硬件供给需求的快速增长。根据Gartner数据,2025年人工智能芯片市场规模将从2020年的101亿美元增长至726亿美元,CAGR(2020-2025年)为48.4%。
AI模型的训练算力与模型参数量、训练数据量有关,中信建投以ChatGPT的算力需求和英伟达DGX A100服务器为例对算力成本进行了估算:需要在DGX A100服务器上总训练时长164060小时(单个A100训练150年)。按照云服务器平均运行成本估算,DGX A100服务器的小时租金是20美元,估算单次训练租用云服务器的成本是328万美金。
研究机构Trend Force指出,下半年ChatBOT及AI风潮将持续渗透至各领域开发市场,带动云端AI服务器及边缘AI服务器应用需求渐增,预估AI芯片2023年出货量将增长46%。其中英伟达GPU为AI服务器市场搭载主流,市占率约60%-70%,其次为云端厂商自主研发的专用集成电路(AISC)芯片,市占率逾20%。
算力核心
AI芯片是AI算力的核心,需求有望率先扩张。
AI芯片是用于加速人工智能训练和推理任务的专用硬件,主要包括现场可编程门阵列(FPGA)、ASIC、神经拟态芯片(NPU)等,具有高度并行性和能够实现低功耗高效计算的特点。
其中,CPU是AI计算的基础,负责控制和协调所有的计算操作。在AI计算过程中,CPU用于读取和准备数据,并将数据来传输到GPU等协处理器进行计算,最后输出计算结果,是整个计算过程的控制核心。根据IDC数据,CPU在基础型、高性能型、推理型、训练型服务器中成本占比分别为32%、23.3%、25%、9.8%,是各类服务器处理计算任务的基础硬件。
GPU、FPGA、ASIC则是AI计算的核心,作为加速芯片处理大规模并行计算。具体来看,GPU通用性较强,适合大规模并行计算,且设计及制造工艺较成熟,是目前占据AI芯片市场的主要份额;FPGA具有开发周期短、上市速度快、可配臵性等特点,目前被大量应用于线上数据处理中心和军工单位;ASIC根据特定需求进行设计,在性能、能效、成本均极大的超越了标准芯片,非常适合AI计算场景,是当前大部分AI初创公司开发的目标产品。
中泰证券表示,相比于少核心串行结构的CPU,多核心的并行结构GPU更适合处理图形图像(矩阵结构)信息。CPU通常有4个、8个或16个强力ALU核心(算术逻辑单元),适合做复杂的通用串行任务。GPU是图形计算的重要元件,主要用来处理与图形图像相关的数据。与CPU不同的是,GPU有数百甚至数千个简单ALU核心,单个ALU处理能力相比CPU的更弱,但能够实现多个ALU并行计算,适合做简单特定的并行任务。因此,对于复杂的单个计算任务来说,CPU的执行效率更高,通用性更强;而对于图形图像这种矩阵式多像素点的简单计算,更适合用GPU来处理,但通用性较弱。
具有并行计算架构的GPU是AI算力的重要支撑,相较CPU在AI研究和开发中具有更高的效率。因此,GPU在AI研究和开发中的重要性不断增加。GPU作为市场上Al计算最成熟、应用最广泛的通用型芯片,应用潜力较大,其并行计算架构相较于其他AI芯片更加适合于复杂数学计算场景,支持高度并行的工作负载,占据了主要市场规模。根据IDC数据,2022年国内人工智能芯片市场中,GPU芯片所占市场份额达89.0%。