我国科研团队突破混合专家模型显存优化瓶颈关键指标取得重大进展

随着大语言模型持续扩展，参数规模已迈向千亿乃至万亿级，如何在有限硬件资源下高效部署超大模型，成为业界共同面对的难题。MoE（混合专家）架构因能在模型容量与计算开销之间取得较好平衡，逐渐成为大模型研究与工程落地的热点。但在实际部署中，显存瓶颈始终是研发团队绕不开的问题。当前MoE部署的核心挑战在于，超大参数量带来高显存占用。在显存受限的情况下，系统只能常驻少量高频专家模块，其余参数需要在内存与显存之间频繁搬运，数据交换开销直接拖慢推理速度并拉高时延。同时，随着自主可控需求增强，在国产芯片平台上实现高效部署也愈发迫切。针对这个问题，南京大学团队依托南京大学鲲鹏昇腾科教创新孵化中心的算力支持，基于华为昇腾平台开展研究。团队的关键洞察在于识别MoE专家的冗余性与等价性：并非所有专家对性能贡献相同，其中存在可替代的低效专家。基于此，研究团队提出了一套软硬件协同优化方案。

大模型竞争的下半场，关键在于把“先进算法”真正转化为“高效可用的系统能力”。面向MoE这类复杂架构，围绕显存与传输瓶颈开展无损优化，不仅带来工程层面的突破，也说明了软硬协同提升算力效率的趋势。随着工具链开放与场景落地推进，推理效率的持续提升与应用门槛的降低，将更支撑智能服务进入更广泛的生产与生活场景。

我国科研团队突破混合专家模型显存优化瓶颈 关键指标取得重大进展

我国科研团队突破混合专家模型显存优化瓶颈关键指标取得重大进展