随着大语言模型持续扩展,参数规模已迈向千亿乃至万亿级,如何在有限硬件资源下高效部署超大模型,成为业界共同面对的难题。MoE(混合专家)架构因能在模型容量与计算开销之间取得较好平衡,逐渐成为大模型研究与工程落地的热点。但在实际部署中,显存瓶颈始终是研发团队绕不开的问题。当前MoE部署的核心挑战在于,超大参数量带来高显存占用。在显存受限的情况下,系统只能常驻少量高频专家模块,其余参数需要在内存与显存之间频繁搬运,数据交换开销直接拖慢推理速度并拉高时延。同时,随着自主可控需求增强,在国产芯片平台上实现高效部署也愈发迫切。针对这个问题,南京大学团队依托南京大学鲲鹏昇腾科教创新孵化中心的算力支持,基于华为昇腾平台开展研究。团队的关键洞察在于识别MoE专家的冗余性与等价性:并非所有专家对性能贡献相同,其中存在可替代的低效专家。基于此,研究团队提出了一套软硬件协同优化方案。
大模型竞争的下半场,关键在于把“先进算法”真正转化为“高效可用的系统能力”。面向MoE这类复杂架构,围绕显存与传输瓶颈开展无损优化,不仅带来工程层面的突破,也说明了软硬协同提升算力效率的趋势。随着工具链开放与场景落地推进,推理效率的持续提升与应用门槛的降低,将更支撑智能服务进入更广泛的生产与生活场景。