在数据规模持续扩张、算力需求快速攀升的背景下,如何以更低功耗实现更高效率的计算,成为芯片与计算体系面临的现实课题。
推荐系统、图像处理、生物信息学等领域广泛使用的非负矩阵分解(NMF),因其在数据降维与特征提取方面的有效性被频繁部署到实际业务中。
然而,当数据量从百万级迈向更大规模,传统数字硬件的能耗与时延压力明显增大,特别是“计算密集+内存访问频繁”带来的瓶颈,制约了实时处理能力的进一步提升。
问题在于,非负矩阵分解属于典型的约束优化计算,需要反复迭代、矩阵运算量大,对存储带宽和数据搬运极为敏感。
现有主流数字芯片虽然在通用性上具有优势,但在面对固定算法的高频迭代时,往往需要在通用架构上“绕远路”:大量能耗并非花在算术运算本身,而消耗在数据在存储与计算单元之间的往返传输。
与此同时,在实时推荐、高清图像处理等业务中,延迟与功耗直接关系到用户体验与系统成本,迫切需要面向特定计算范式的更高效方案。
针对这一痛点,北京大学团队选择从模拟计算技术路线切入,提出并研制专用于非负矩阵分解的模拟计算芯片。
模拟计算的核心思路,是利用物理规律在电路层面并行完成部分计算过程,以减少传统数字系统中频繁的数据搬运与指令调度,从而在潜在上实现更低延迟与更低功耗。
研究团队基于阻变存储器(RRAM)构建计算单元,并设计可重构的紧凑型电路结构,对核心计算步骤进行针对性优化,实现“一步求解”的计算路径,进而在芯片面积与能耗指标上获得明显改善。
从测试结果看,该芯片在典型应用中相较先进数字芯片计算速度提升约12倍、能效比提升超过228倍。
为验证可用性,研究团队搭建了测试平台并进行多任务评估:在图像压缩任务中,芯片在几乎不损失精度的前提下可节省约一半存储空间;在电影评分数据集以及更大规模的商业数据集上开展推荐系统训练任务时,该芯片同样表现出显著的速度与能效优势。
上述结果表明,面向特定算法的模拟计算芯片在“约束优化类问题实时求解”方面具备可观潜力,为数据密集型应用提供了新的硬件支撑思路。
从影响层面看,这一进展至少带来三方面启示:其一,为推荐系统、图像分析、基因数据分析等对吞吐与功耗高度敏感的应用,提供了向“低功耗高性能”迁移的可能路径,有望降低数据中心能耗与边缘设备算力门槛;其二,展示了存算融合与模拟计算在特定任务上的效率优势,为突破“算得动但耗不起”的现实困境提供了工程化样本;其三,强调了“算法—架构—器件”协同设计的重要性,即以应用需求牵引硬件创新、以器件特性反哺架构设计,形成更高效的技术闭环。
同时也应看到,专用模拟计算芯片走向更广泛应用仍需系统化对策支撑:一是加强可靠性与一致性评估,模拟电路与新型存储器件在工艺波动、噪声干扰、长期稳定性等方面的工程挑战,需要通过校准机制、容错设计与标准化测试体系予以化解;二是完善软硬件协同生态,建立面向非负矩阵分解及相关约束优化问题的编译、调度与工具链,降低应用迁移成本;三是推动多场景验证,在推荐、影像、生命科学等领域开展更贴近实际业务的数据与指标评测,明确其在精度、功耗、时延、成本等维度的综合收益边界;四是促进产学研协同,围绕器件制造、封装测试、系统集成与规模化验证加快工程转化。
面向未来,随着数据规模继续增长、算力结构加速多样化,通用计算与专用加速将长期并存。
模拟计算若能在可靠性、可制造性与可编程性上持续突破,有望在特定类型的矩阵分解、优化求解与信号处理任务中形成具有竞争力的“低功耗实时”技术路径,并在边缘计算、智能终端与绿色数据中心等场景释放价值。
此次成果发表于《自然·通讯》,也反映出我国科研团队在新型计算范式与芯片实现方面的探索正在加速,为构建更高能效的计算基础设施提供了新的方向。
芯片技术的创新往往源于对计算本质的深刻认识。
北大团队从传统数字计算的局限性出发,大胆探索模拟计算新路线,以专用化、优化化的设计思路,在能效比上实现了数量级的突破。
这一成果不仅为当前高耗能的人工智能应用提供了可行的技术方案,更重要的是示范了在特定领域通过创新芯片设计来解决计算瓶颈的有效途径。
随着类似研究的深入推进,我国在高端芯片设计和制造领域的自主创新能力将进一步增强,为建设计算强国奠定更加坚实的基础。