英伟达的gb300 rack 系统将取代了，成为了主力，到了2026年，出货量能就接近80% 。

2025年第四季度，英伟达的GB300 Rack系统就把GB200给取代了，成为了主力，到了2026年，出货量能就接近80%。VR200 Rack大概会在2026年第三季度末才逐步放量，至于后面具体能发多少货，还得看ODM那边的实际进度。英伟达在GTC 2026上改了打法，重心放到了各种领域的AI推理应用落地上面，不再像以前那样只盯着云端的训练市场了。它搞出了GPU、CPU还有LPU等多条产品线，把AI训练和推理需求分开去攻打。还通过整合Rack方案来带动整个供应链发展。随着谷歌还有亚马逊（AMZN.US）这些大型云端服务供应商（CSP）把自研芯片的力度加大，ASIC AI Server在整个AI Server出货中的比例预计会从2026年的27.8%一路上升，到2030年就要接近40%。为了巩固自己在AI市场的地位，英伟达除了推GB300、VR200这种整合了CPU和GPU的整柜方案之外，这次GTC还发布了Vera Rubin。这是个高度垂直整合的完整系统，里面涵盖了七款芯片和五款机柜。看供应链那边的进度，预计2026年第二季存储器原厂就能给Vera Rubin GPU提供HBM4内存来用了，好让英伟达能在第三季前后陆续出货芯片。至于Groq团队的技术被整合进去以后推出的Groq 3 LPU，这是个专为低延迟推理设计的芯片。它单颗自带500MB SRAM，整机柜可以堆到128GB。但LPU本身的容量装不下Vera Rubin那么大的参数和KV Cache。所以英伟达就在这次GTC上提出了“解耦合推理”架构。它用名叫Dynamo的AI工厂作业系统把流水线切成了两半：做代理型AI需要大量数学运算和储存KV Cache的Pre-fill、Attention阶段，就让吞吐量大又有巨量内存的Vera Rubin去做；而受限于带宽又对延迟很敏感的译码和Token生成阶段，就直接交给扩充了巨量内存的LPU机柜去执行。三星负责代工的第三代Groq LP30已经进入全面量产阶段了，预计2026年下半年就能正式出货。以后还打算在下一代Feynman架构里推出更强的LP40芯片。智通财经APP知道了这些消息。