odcc与nvidia、焱融合作,把ai 推理性能和成本控制上都交出了特别好的答卷

那个嘛,最近搞了个挺厉害的评测,ODCC跟NVIDIA、焱融他们合作,把那种叫KV Cache的关键制约因素给弄清楚了。结果就是焱融自研的YRCache系统,在推理性能和成本控制上都交出了特别好的答卷。其实啊,大模型现在越来越多的企业在用,这就对AI推理系统的基础设施提出了新的挑战。以前GPU显存不够用是个大问题,特别是上下文越来越长,大家请求的速度又特别快,传统的显存架构根本跟不上节奏。所以呢,怎么优化系统架构把算力的潜力挖出来,既要跑得快点又不能太贵,就成了大家抢着干的事儿。 ODCC这次成立的AI存储实验室给这个事儿提供了一个范本。他们发了一个报告,讲了怎么处理大模型推理里那个特别难搞的KV Cache。测试数据显示,YRCache这个系统把推理性能给提到了一个新高度,同时还把成本给大大降低了。给大家解释一下吧:TTFT(首Token延迟)和TPOT(单个Token生成时间)这两个指标都减少了97%,系统的Token吞吐量还能提升22倍。这么说吧,用户那边的感觉就是问什么马上就能答上来,长文章生成的时候特别顺滑。 这个系统是怎么做到的呢?是因为它专门为大规模推理设计的。它把GPU显存、主机内存、本地NVMe SSD还有YRCloudFile这些都连成了多级缓存架构。这样一来啊,KV缓存空间就变得特别大,原来被显存限制住的问题就解决了。这次测试是在NVIDIA平台上的真实环境里跑的。他们用DeepSeek-R1这种主流的大模型做了实验。测试对象也挺全的,包括中端的GDDR GPU和高端的HBMGPU这两种算力节点。还对比了在不同网络带宽下的表现。 结果呢?Batch值是16、输入长度10K Tokens的时候,用了YRCache之后,首Token延迟和生成时间能优化97%,吞吐量最高提升22倍。这就是说用户体验一下子就变好了。而且系统能同时服务更多人请求了。还有个亮点是在长上下文场景下表现稳定。哪怕输入的Token从100变成100K了,YRCache还能保持优势,而且上下文越长它的加速效果就越好。这样企业在处理长文档分析或者多轮对话这些高负载任务的时候就不用担心性能会突然掉下来了。 更有意思的是中端GDDR GPU和高端HBM GPU在性能上的差距也变小了。原来的时候中端卡的吞吐量只有高端卡的30%,但用了YRCache之后差距就缩小到79%。这对企业来说很划算啊。投资回报率(ROI)飙升了14倍。原来的方案是需要高端GPU才能跑得快点又便宜点,现在有了YRCache就不用这么依赖GPU了。企业可以用更低的成本部署高性能服务了。 这次测试不仅验证了YRCache的实力,还证明了“以存促算、架构降本”这条路是可行的。ODCC以后还会接着测KV Cache这方面的东西。焱融那边也说了会支持下一代推理架构的PD(Prefill-Decode)分离技术。总之吧,这个突破改变了企业AI推理的成本结构。未来中小企业能用更低的门槛做高性能服务了,大企业也能把总拥有成本给降下来了。