英伟达拿下了Groq,花了170亿美元,这可不是瞎折腾。这钱主要是给LPU这块技术开路的。以前中国市场上买不到英伟达自家的Vera Rubin GPU,推理算力全得靠外国货凑数,麻烦得很。现在LPU来了,靠着内存带宽冲到了150TB/s,再加上那个确定性编译器,把推理过程里的卡顿问题彻底解决了,正好补上训练跟推理之间的那块短板。 咱来拆开看看这块LPU有啥黑科技。先说内存带宽,它用的全是SRAM,直接把英伟达Rubin GPU的带宽给干到了7倍。意思就是同样的模型,生成一个token的速度快多了。再说说处理指令的方式,传统GPU都是动态调度的,多任务抢着用资源容易堵车;LPU的办法是提前排好队,每条指令什么时候执行、走哪条路都定死了。这么一来就没有随机等待了,生成速度能快6倍,成本也降下来四分之一,能耗还能少三分之一。 2024年ISSCC的现场实测最有说服力。在代码生成和实时对话这些场景下,每兆瓦的算力每一秒能生成的token数量翻了35倍。LPU简直就是为现在这个推理时代量身定做的高效引擎。 这回英伟达在中国市场玩真的了。以前卖的“全球版”芯片常常是被阉割过的版本,这次不一样。LPU要把完整性能拿出来在中国卖,而且它不是什么协处理器,自己就能搞定解码和生成任务。道理很简单:新一代的Vera Rubin进不来中国市场了,英伟达必须找个能在中国服务器里单打独斗的芯片。 供应链这块也换了供应商。为了保险起见,LPU这次找三星代工生产,这可是英伟达服务器芯片头一回不用台积电。上游的PCB板和覆铜板这些材料也往国内厂商那边靠拢,像沪电股份、南亚新材都能拿到活儿做。这一套动作下来,带动整个产业链一起成长。 软件端也没闲着。英伟达推出了Nemo Claw这个软件栈,跟OpenClaw这类开源平台深度兼容,还能直接支持DeepSeek和智谱GLM这种中国的大模型。客户换起来方便多了。等到AI智能体应用全面爆发的时候,推理算力消耗肯定要激增。英伟达这套软硬件组合拳一放出来,就能更快地抢到市场份额。 竞争对手也不少。百度、阿里、云天励飞这些厂商早就盯上推理芯片这块市场了。大家都想走低延迟、性价比高这条路。Groq LPU最大的优势在于它的SRAM架构加上确定性编译器带来的极致吞吐量。到底能不能在本土生态里跑赢别人?就看2026年5月正式上市后怎么表现了。 最后说一句:这招棋下得很精准。中国版的Groq芯片不光是技术的事儿,更是英伟达在训练和推理两头都发力的一个大动作。低延迟、不降级、供应链本地化这几个关键词凑在一起,让这款小小的芯片成了撬动本土AI算力市场的大杠杆。