英伟达战略调整推动SRAM技术复兴全球AI算力格局或将重塑

（问题）过去一段时间，全球半导体产业围绕高带宽存储器（HBM）的竞争持续升温。HBM以高容量、高吞吐成为大模型训练阶段的关键资源。但随着大模型从研发走向规模化应用，行业关注点正从“训练更快、模型更大”转向“响应更快、体验更稳”。这种变化下，单靠片外HBM堆带宽，难以完全满足推理场景对低时延和带宽确定性的要求。（原因）从计算体系结构看，存储系统天然分层：最靠近计算核心的片上SRAM具备纳秒级访问，带宽高且更稳定，但容量小、成本高；向外依次是HBM、通用DRAM和固态硬盘等，容量逐级增加，时延和带宽波动也随之上升。训练阶段强调吞吐与并行，片外大容量存储能否持续“喂饱”算力更关键；而推理，尤其是交互式推理，更看重首字节响应时间、尾时延以及持续输出的平滑性。逐字生成过程中，如果权重频繁在计算核心与片外存储之间来回搬运，封装互连与访问延迟会被反复放大，体验下降，能耗也会抬升。（影响）在GTC 2026主题演讲中，英伟达公布了面向推理的芯片与机架级方案，并披露关键指标：单芯片集成约500MB片上SRAM，片上存储带宽达到150TB/s；同时推出机架级配置，通过多处理器并行获得更大规模的片上SRAM总量与更高带宽，并配套专用扩展接口实现机架内部互连。英伟达表示，该芯片将由三星电子代工，已进入生产阶段，预计今年下半年开始出货。市场端也出现大额意向采购信息，引发产业链对推理算力投资节奏变化的关注。这个技术路线释放的信号很清晰：推理正在成为定义下一代算力形态的关键变量，其影响至少体现在三上。其一，芯片设计重心从“堆更大算力规模”转向“提高存储就近率、降低数据搬运成本”，片上存储容量、片上互连与调度机制的重要性明显上升。其二，供应链的关注点不再只盯HBM紧缺，而是扩展到先进制程、先进封装、片上存储面积占比、机架互连与整机能效等系统能力。其三，云端推理服务、企业级智能体与端侧应用将围绕“低时延、低波动、可预测”形成新的竞争维度，算力采购与部署方式也可能从追求峰值指标，转向强调可用性与成本结构。（对策）对产业各方而言，需要抓住推理需求结构变化带来的窗口期。芯片与系统厂商应在架构层面强化“存算协同”，通过提升片上SRAM容量、优化数据复用、改进互连与缓存策略，减少对片外存储往返的依赖；同时以能效为约束，统筹面积、成本与散热设计。云服务与应用企业则应按业务形态拆分工作负载，在不同阶段采用差异化资源组合，提高资源利用率与服务稳定性。产业链上游需要在先进工艺、先进封装材料与测试验证体系上加快投入，形成从晶圆制造到系统集成的协同能力，避免出现“局部突破、系统瓶颈”。（前景）从趋势看，训练仍将长期存在，并继续推动通用算力与大容量存储迭代；但推理占比的提升将更快改变市场结构。尤其在交互式服务、代码生成、智能体执行、多轮对话和行业应用落地等场景中，低时延与确定性体验将直接决定产品竞争力。未来一段时间，围绕片上SRAM扩容、存储层级重构、机架级互连标准以及软硬件协同优化的竞争会更加剧。芯片企业的“胜负手”也将从单一算力指标，转向“架构、系统、生态”的综合能力。

从训练竞赛到推理竞速，产业逻辑的变化往往最先体现在存储与互连的取舍上。片上SRAM重新受到追捧，反映出计算系统正在从追求规模与峰值，转向追求确定性与体验。能否在架构、制造与软件生态之间形成闭环协同，将决定下一阶段算力产业的竞争格局与投入方向。

英伟达战略调整推动SRAM技术复兴 全球AI算力格局或将重塑

英伟达战略调整推动SRAM技术复兴全球AI算力格局或将重塑