内存老是不够用,速度就掉得厉害。为了给解决这个事儿,nvidia 研究团队搞出了一个叫kvtc的东西

NVIDIA把一种叫KVTC的技术拿出来,让AI硬件的内存需求直接降了20倍,成本也大大降低。现在AI发展特别快,大家都离不开大语言模型,可要是聊起天来,内存老是不够用,速度就掉得厉害。为了给解决这个事儿,NVIDIA研究团队搞出了一个叫KVTC的东西。这个技术把推理过程中存着的那些KV缓存使劲儿压缩,最大能省掉20倍的内存空间,而且不用动模型原来的架构。KV缓存就是LLM的“脑子”,它把对话历史里的关键信息存下来(Key和Value),这样模型处理新问题的时候就不用重复算那些老内容了。但要是聊天聊太长,这个“脑子”里的东西会胀到好几GB,把GPU内存挤爆了。NVIDIA的一个工程师叫Adrian Lancucki就说了,推理的瓶颈其实不是CPU算得慢,而是GPU的内存不够用。以前大家只能把不用的缓存挪到CPU或者硬盘上用,但数据跑来跑去会把时间耽误了。 KVTC的核心思路是学JPEG压缩的样儿,通过“主成分分析、自适应量化、熵编码”这几步流程,把KV缓存里那些高度相关的东西抓准了,把没用的冗余信息都扔掉。特别方便的是它不搞破坏设计,企业想把它加进系统里完全不用改模型代码或者参数。实验证明,在15亿到700亿个参数的模型里(比如Llama3和R1-Qwen2.5),用KVTC把内存压20倍之后,准确率掉得还不到1%。相比之下以前的老方法只能压缩5倍就得性能大跌。在H100 GPU上实际测了一下,处理8000个Token的提示词时,开了KVTC以后,模型第一次回复的时间从3秒缩到了380毫秒,快了8倍多。这种变化在编程助手或者需要来回迭代推理的场景里特别管用,不过短对话因为缓存量少效果就没那么明显了。 NVIDIA打算把KVTC塞到Dynamo框架里的KV块管理器里头去,还保证它能跟vLLM这些主流开源引擎兼容。有业内人士觉得以后LLM的对话长度还会往上长,这种标准的压缩技术可能会变成AI落地的基础设施了,普及程度大概能跟当年视频压缩技术在多媒体行业的影响差不多。这么看来,NVIDIA的KVTC不仅给长对话处理解了燃眉之急,还帮企业省了不少硬件钱。只要这项技术推广开来,未来的AI应用肯定会变得又快又好用,给各行各业的智能化转型装上一把好引擎。