lpu是个新东西，它用了tsp 架构，主要就是给那些计算量大、而且是一步一步按顺序干活的任务

大家都在关注推理芯片，财通证券最近出了个报告，专门讲LPU这个芯片。LPU其实是个新东西，它用了TSP架构，主要就是给那些计算量大、而且是一步一步按顺序干活的任务设计的。这个架构把处理器原来的五级流水线给拆了，分散到芯片各处，这样硬件就没那么复杂了，指令执行起来也更稳定了。在TSP架构下，编译器可以直接管底层硬件，相当于软件定义硬件。现在大家用大模型的时候，最烦的就是慢，这直接关系到用户体验好不好。其实延迟大多发生在Decode阶段，主要是内存带宽不够用导致的。LPU有更快的内存带宽，能缩短这个延迟。而且基于LPU的大模型不仅跑得快，价格也更实惠，这能让用户体验感更好。 Tokens的消耗现在增长特别快。年初的时候我们每天用1000亿Tokens，到了26年2月主流大模型加起来每天就用掉180万亿了。Tokens用得越多，推理芯片的市场规模自然就大了。LPU能帮着缩短延迟，我们觉得它在推理芯片市场里能慢慢渗透进去，市场空间很大。目前LPU已经开始量产了，很快就能放量了。整理一下报告里的原文供大家参考：“LPU专题报告一：架构创新突破大模型推理延迟瓶颈，广阔市场空间有望快速放量”由财通证券发布。“幻影视界”整理分享报告摘要如下：LPU 为新一代面向大模型推理阶段的芯片，核心为 TSP 架构：LPU 是专为顺序处理的计算密集型任务设计的新型芯片架构，核心在于 TSP 架构。包含五大功能模块，将经典的处理器五级流水线拆散在整个芯片内。这样就消除了硬件的复杂性，使指令执行顺序和时间具有确定性。在 TSP 架构下，编译器可以直接访问并精确控制芯片的底层硬件状态。实现了软件定义硬件。LPU 可缩短大模型推理过程中的延迟。提高用户体验感：大模型在推理过程中会存在延迟。延迟与用户体验感精密挂钩。大模型推理过程中的延迟主要在Decode 阶段。核心瓶颈在于内存带宽。 LPU 具备更快的内存带宽。可缩短大模型推理过程中的延迟。同时基于 LPU 的大模型不仅具有更快的推理速度，还可以提供更具性价比的价格。可进一步提高用户体验感。目前Tokens 的消耗量大幅增长。2024 年初我国日均 Token 的消耗量为 1000 亿。2026 年 2 月主流大模型合计日均 Token 消耗已到 180 万亿级别。Tokens 消耗量快速增长，带动推理芯片市场规模的高增长。 LPU 可降低大模型推理的延迟。我们认为 LPU 有望在推理芯片市场中逐步渗透，具有高成长性的市场空间。目前 LPU 已步入量产初期，放量在即。本文仅供参考，不代表我们的任何投资建议。