lpu是个新东西,它用了tsp 架构,主要就是给那些计算量大、而且是一步一步按顺序干活的任务

大家都在关注推理芯片,财通证券最近出了个报告,专门讲LPU这个芯片。LPU其实是个新东西,它用了TSP架构,主要就是给那些计算量大、而且是一步一步按顺序干活的任务设计的。这个架构把处理器原来的五级流水线给拆了,分散到芯片各处,这样硬件就没那么复杂了,指令执行起来也更稳定了。在TSP架构下,编译器可以直接管底层硬件,相当于软件定义硬件。 现在大家用大模型的时候,最烦的就是慢,这直接关系到用户体验好不好。其实延迟大多发生在Decode阶段,主要是内存带宽不够用导致的。LPU有更快的内存带宽,能缩短这个延迟。而且基于LPU的大模型不仅跑得快,价格也更实惠,这能让用户体验感更好。 Tokens的消耗现在增长特别快。年初的时候我们每天用1000亿Tokens,到了26年2月主流大模型加起来每天就用掉180万亿了。Tokens用得越多,推理芯片的市场规模自然就大了。LPU能帮着缩短延迟,我们觉得它在推理芯片市场里能慢慢渗透进去,市场空间很大。目前LPU已经开始量产了,很快就能放量了。 整理一下报告里的原文供大家参考:“LPU专题报告一:架构创新突破大模型推理延迟瓶颈,广阔市场空间有望快速放量”由财通证券发布。“幻影视界”整理分享报告摘要如下:LPU 为新一代面向大模型推理阶段的芯片,核心为 TSP 架构:LPU 是专为顺序处理的计算密集型任务设计的新型芯片架构,核心在于 TSP 架 构。包含五大功能模块,将经典的处理器五级流水线拆散在整个芯片内。 这样就消除了硬件的复杂性,使指令执行顺序和时间具有确定性。在 TSP 架构下,编译器可以直接访问并精确控制芯片的底层硬件状态。实现了软件定义硬件。LPU 可缩短大模型推理过程中的延迟。提高用户体验感:大模型在推理过程中会存在延迟。延迟与用户体验感精密挂钩。 大模型推理过程中的延迟主要在Decode 阶段。核心瓶颈在于内存带宽。 LPU 具备更快的内存带 宽。可缩短大模型推理过程中的延迟。同时基于 LPU 的大模型不仅具有更 快的推理速度,还可以提供更具性价比的价格。可进一步提高用户体验感。 目前Tokens 的消耗 量大幅增长。2024 年初我国日均 Token 的消耗量为 1000 亿。2026 年 2 月 主流大模型合计日均 Token 消耗已到 180 万亿级别。Tokens 消耗量快速增 长,带动推理芯片市场规模的高增长。 LPU 可降低大模型推理的延迟。 我们认为 LPU 有望在推理芯片市场中逐步渗透,具有高成长性的市场空间。目前 LPU 已步入量产初期,放量在即。 本文仅供参考,不代表我们的任何投资建议。