(问题)过去一段时间,全球半导体产业围绕高带宽存储器(HBM)的竞争持续升温。HBM以高容量、高吞吐成为大模型训练阶段的关键资源。但随着大模型从研发走向规模化应用,行业关注点正从“训练更快、模型更大”转向“响应更快、体验更稳”。这种变化下,单靠片外HBM堆带宽,难以完全满足推理场景对低时延和带宽确定性的要求。 (原因)从计算体系结构看,存储系统天然分层:最靠近计算核心的片上SRAM具备纳秒级访问,带宽高且更稳定,但容量小、成本高;向外依次是HBM、通用DRAM和固态硬盘等,容量逐级增加,时延和带宽波动也随之上升。训练阶段强调吞吐与并行,片外大容量存储能否持续“喂饱”算力更关键;而推理,尤其是交互式推理,更看重首字节响应时间、尾时延以及持续输出的平滑性。逐字生成过程中,如果权重频繁在计算核心与片外存储之间来回搬运,封装互连与访问延迟会被反复放大,体验下降,能耗也会抬升。 (影响)在GTC 2026主题演讲中,英伟达公布了面向推理的芯片与机架级方案,并披露关键指标:单芯片集成约500MB片上SRAM,片上存储带宽达到150TB/s;同时推出机架级配置,通过多处理器并行获得更大规模的片上SRAM总量与更高带宽,并配套专用扩展接口实现机架内部互连。英伟达表示,该芯片将由三星电子代工,已进入生产阶段,预计今年下半年开始出货。市场端也出现大额意向采购信息,引发产业链对推理算力投资节奏变化的关注。 这个技术路线释放的信号很清晰:推理正在成为定义下一代算力形态的关键变量,其影响至少体现在三上。其一,芯片设计重心从“堆更大算力规模”转向“提高存储就近率、降低数据搬运成本”,片上存储容量、片上互连与调度机制的重要性明显上升。其二,供应链的关注点不再只盯HBM紧缺,而是扩展到先进制程、先进封装、片上存储面积占比、机架互连与整机能效等系统能力。其三,云端推理服务、企业级智能体与端侧应用将围绕“低时延、低波动、可预测”形成新的竞争维度,算力采购与部署方式也可能从追求峰值指标,转向强调可用性与成本结构。 (对策)对产业各方而言,需要抓住推理需求结构变化带来的窗口期。芯片与系统厂商应在架构层面强化“存算协同”,通过提升片上SRAM容量、优化数据复用、改进互连与缓存策略,减少对片外存储往返的依赖;同时以能效为约束,统筹面积、成本与散热设计。云服务与应用企业则应按业务形态拆分工作负载,在不同阶段采用差异化资源组合,提高资源利用率与服务稳定性。产业链上游需要在先进工艺、先进封装材料与测试验证体系上加快投入,形成从晶圆制造到系统集成的协同能力,避免出现“局部突破、系统瓶颈”。 (前景)从趋势看,训练仍将长期存在,并继续推动通用算力与大容量存储迭代;但推理占比的提升将更快改变市场结构。尤其在交互式服务、代码生成、智能体执行、多轮对话和行业应用落地等场景中,低时延与确定性体验将直接决定产品竞争力。未来一段时间,围绕片上SRAM扩容、存储层级重构、机架级互连标准以及软硬件协同优化的竞争会更加剧。芯片企业的“胜负手”也将从单一算力指标,转向“架构、系统、生态”的综合能力。
从训练竞赛到推理竞速,产业逻辑的变化往往最先体现在存储与互连的取舍上。片上SRAM重新受到追捧,反映出计算系统正在从追求规模与峰值,转向追求确定性与体验。能否在架构、制造与软件生态之间形成闭环协同,将决定下一阶段算力产业的竞争格局与投入方向。