英伟达用nvlink 技术把72个gpu连接成统一的计算单元

2月16日，英伟达放出了一篇博文，详细说明了Blackwell Ultra架构是如何在能效和成本上做到大幅提升的。他们把每兆瓦吞吐量给提升了足足50倍，要知道这可是相比前代的Hopper架构来说的。有了这种飞跃，处理100万个token的成本也被压低到了35分之一。英伟达这次还提供了个具体的数据：相比Hopper GPU，GB300 NVL72的能效比高达50倍。除了在这个指标上表现亮眼，它还用NVLink技术把72个GPU给连接起来，让它们形成一个整体，互联带宽更是高达130TB/s。DeepSeek-R1模型的测试结果显示了这种架构在性能上的优势。凭借全新的NVFP4精度格式和极致的协同设计结构，Blackwell Ultra彻底改写了AI推理的经济模型。甚至与上一代Blackwell（GB200）相比，在长上下文任务中的Token成本也降低到了1.5分之一。注意力机制处理速度翻倍后，它能够更好地应对代码库维护等高负载场景。英伟达还透露了下一代Rubin平台的消息，预计其每兆瓦吞吐量将比Blackwell再提升10倍，这无疑会推动AI基础设施的进一步发展。值得一提的是，OpenRouter发布的《推理状态报告》指出软件编程相关的AI查询量在过去一年中激增，占比从11%攀升至约50%。这类应用通常需要AI代理保持实时响应并具备长上下文处理能力。为了应对这一挑战，英伟达通过TensorRT-LLM和Dynamo团队的持续优化提升了混合专家模型（MoE）的推理吞吐量。TensorRT-LLM库的改进让GB200在低延迟工作负载上的性能在短短四个月内提升了5倍。这种架构升级带来了巨大的改变：不仅让每百万Token的成本变得极低，还解决了以往GPU互联带宽不够的问题。通过NVLink技术把72个GPU连接成统一的计算单元是这一进步的关键因素之一。Blackwell Ultra凭借高带宽和高速率为AI推理提供了强大支持。OpenRouter报告提到编程类AI应用激增是一个趋势；英伟达正是看到了这个市场需求才做出了这种技术突破。在2月16日发布的博文中他们强调了性能飞跃的关键在于架构升级；NVLink技术把72个GPU连成一体；NVFP4精度格式配合协同设计巩固了统治地位；TensorRT-LLM和Dynamo团队持续优化提升了MoE吞吐量；软件编程类应用占比从11%攀升至约50%；TensorRT-LLM库改进让GB200性能提升5倍；他们还预告了下一代Rubin平台每兆瓦吞吐量将比Blackwell再提升10倍；GB300在长上下文任务中的Token成本降低至1.5分之一。