给企业用AI的时候,每一次发送一条信息都算一个token,所以能不能花得起钱就取决于每个token的成本。为了搞定这个,领先的推理服务提供商就想到了一个招儿:把他们的服务部署到NVIDIA Blackwell平台上。这家伙因为软硬件协同做得太好,能帮企业把每个token的成本降得非常狠,比以前那种Hopper平台要低得多,最夸张的时候甚至能砍到1/10。这么一看,像Baseten、DeepInfra、Fireworks AI和Together AI这些大公司就都跑来用这个平台了。它们通过在Blackwell上运行那些优化过的推理堆栈,直接让各行各业的每token成本都降了下来。麻省理工学院的研究也证实了这一点:现在搞AI的基础设施和算法效率都高了很多,前沿级别的推理成本确实是一年比一年少,最后也能降到原来的1/10。咱们可以把这个过程想象成一台高速印刷机。如果这台印刷机只要稍微多投入点油墨、电费或者设备费,就能印出十倍多的东西来,那每页纸的成本肯定就便宜了。AI的基础设施也是一样的道理:只要投资能带来超出预期的输出量,单个token的价格自然就跟着往下掉。这样一来,用Blackwell平台就能让企业不仅成本低、效率高,还能把那些前沿级别的开源模型给用起来。这些服务商现在正利用开源智能加上极致的软硬件设计以及自己优化好的推理堆栈,帮助大家在降低token成本这件事上大显身手呢。