2025年第四季度,英伟达的GB300 Rack系统就把GB200给取代了,成为了主力,到了2026年,出货量能就接近80%。VR200 Rack大概会在2026年第三季度末才逐步放量,至于后面具体能发多少货,还得看ODM那边的实际进度。英伟达在GTC 2026上改了打法,重心放到了各种领域的AI推理应用落地上面,不再像以前那样只盯着云端的训练市场了。它搞出了GPU、CPU还有LPU等多条产品线,把AI训练和推理需求分开去攻打。还通过整合Rack方案来带动整个供应链发展。 随着谷歌还有亚马逊(AMZN.US)这些大型云端服务供应商(CSP)把自研芯片的力度加大,ASIC AI Server在整个AI Server出货中的比例预计会从2026年的27.8%一路上升,到2030年就要接近40%。为了巩固自己在AI市场的地位,英伟达除了推GB300、VR200这种整合了CPU和GPU的整柜方案之外,这次GTC还发布了Vera Rubin。这是个高度垂直整合的完整系统,里面涵盖了七款芯片和五款机柜。 看供应链那边的进度,预计2026年第二季存储器原厂就能给Vera Rubin GPU提供HBM4内存来用了,好让英伟达能在第三季前后陆续出货芯片。至于Groq团队的技术被整合进去以后推出的Groq 3 LPU,这是个专为低延迟推理设计的芯片。它单颗自带500MB SRAM,整机柜可以堆到128GB。但LPU本身的容量装不下Vera Rubin那么大的参数和KV Cache。 所以英伟达就在这次GTC上提出了“解耦合推理”架构。它用名叫Dynamo的AI工厂作业系统把流水线切成了两半:做代理型AI需要大量数学运算和储存KV Cache的Pre-fill、Attention阶段,就让吞吐量大又有巨量内存的Vera Rubin去做;而受限于带宽又对延迟很敏感的译码和Token生成阶段,就直接交给扩充了巨量内存的LPU机柜去执行。 三星负责代工的第三代Groq LP30已经进入全面量产阶段了,预计2026年下半年就能正式出货。以后还打算在下一代Feynman架构里推出更强的LP40芯片。智通财经APP知道了这些消息。