turboquant 压缩键值缓存,这招真厉害,能把大语言模型推理时需要的存储空间减少6倍,还能让

就在最近,谷歌推出了一个叫TurboQuant的新东西,专门用来压缩键值缓存。这招真厉害,能把大语言模型推理时需要的存储空间减少6倍,还能让英伟达H100 GPU的速度猛涨8倍,而且精度几乎没怎么掉。这消息一出,美股里的存储相关公司股价全都被砸得够呛,大家都担心AI不需要那么多硬件了。 不过“壹评级”觉得大家伙儿完全理解错了。这个算法是针对推理环节的优化,跟训练时需要的存储空间没半毛钱关系。说白了,它就是让每一块GPU的干活效率更高了,能用现有的机器处理更长的文本或者服务更多的用户,并不是说以后大家都不用买那么多存储设备了。 在这里得提个醒,得用“杰文斯悖论”的眼光来看这件事。这悖论讲的是技术效率提升了,单位成本就下来了,结果大家用得更狠了,总资源消耗量反倒上去了。放在AI这儿也一样,TurboQuant降低了每个Token的推理成本,让以前因为太贵没人做的复杂长文本应用变得可行,自然就会有大量新的使用场景冒出来。 所以长期来看,这次效率革命其实会把整个AI应用的生态都带起来。以后大家更愿意用这些好工具了,硬件需求只会跟着水涨船高。所以说这次存储板块的大跌纯粹是因为市场情绪太激动了,跟产业本身的基本面没关系。算法突破长期看肯定是好事儿。 建议大家如果手里有钱就逢低买点兆易创新、江波龙、雅克科技这些在存储产业链上的核心标的。