2月16日,英伟达放出了一篇博文,详细说明了Blackwell Ultra架构是如何在能效和成本上做到大幅提升的。他们把每兆瓦吞吐量给提升了足足50倍,要知道这可是相比前代的Hopper架构来说的。有了这种飞跃,处理100万个token的成本也被压低到了35分之一。英伟达这次还提供了个具体的数据:相比Hopper GPU,GB300 NVL72的能效比高达50倍。除了在这个指标上表现亮眼,它还用NVLink技术把72个GPU给连接起来,让它们形成一个整体,互联带宽更是高达130TB/s。DeepSeek-R1模型的测试结果显示了这种架构在性能上的优势。凭借全新的NVFP4精度格式和极致的协同设计结构,Blackwell Ultra彻底改写了AI推理的经济模型。甚至与上一代Blackwell(GB200)相比,在长上下文任务中的Token成本也降低到了1.5分之一。注意力机制处理速度翻倍后,它能够更好地应对代码库维护等高负载场景。 英伟达还透露了下一代Rubin平台的消息,预计其每兆瓦吞吐量将比Blackwell再提升10倍,这无疑会推动AI基础设施的进一步发展。值得一提的是,OpenRouter发布的《推理状态报告》指出软件编程相关的AI查询量在过去一年中激增,占比从11%攀升至约50%。这类应用通常需要AI代理保持实时响应并具备长上下文处理能力。为了应对这一挑战,英伟达通过TensorRT-LLM和Dynamo团队的持续优化提升了混合专家模型(MoE)的推理吞吐量。TensorRT-LLM库的改进让GB200在低延迟工作负载上的性能在短短四个月内提升了5倍。 这种架构升级带来了巨大的改变:不仅让每百万Token的成本变得极低,还解决了以往GPU互联带宽不够的问题。通过NVLink技术把72个GPU连接成统一的计算单元是这一进步的关键因素之一。Blackwell Ultra凭借高带宽和高速率为AI推理提供了强大支持。OpenRouter报告提到编程类AI应用激增是一个趋势;英伟达正是看到了这个市场需求才做出了这种技术突破。 在2月16日发布的博文中他们强调了性能飞跃的关键在于架构升级;NVLink技术把72个GPU连成一体;NVFP4精度格式配合协同设计巩固了统治地位;TensorRT-LLM和Dynamo团队持续优化提升了MoE吞吐量;软件编程类应用占比从11%攀升至约50%;TensorRT-LLM库改进让GB200性能提升5倍;他们还预告了下一代Rubin平台每兆瓦吞吐量将比Blackwell再提升10倍;GB300在长上下文任务中的Token成本降低至1.5分之一。