中科曙光发布首款全栈自研400G高速网络 突破国产算力互联关键瓶颈

问题——算力跃升下“网络短板”日益突出;近年来,大模型训练和高性能计算任务快速增长,集群从千卡向万卡、乃至更大规模扩展成为常态。算力规模扩大并不必然带来效率同步提升,跨节点通信开销、同步等待与拥塞丢包等问题,往往使加速比下降,网络逐步成为影响整体吞吐与成本的关键变量。业内普遍认为,面向万卡集群的高带宽、低时延、无损传输与快速恢复能力,已成为算力基础设施的“必答题”。 原因——主流方案各有掣肘,自主可控需求更为迫切。当前高速互联主要依赖两类技术路径:一类是以太网上叠加RDMA能力的RoCE方案,优势在于兼容IP生态,但在大规模集群中容易受到协议栈复杂、拥塞控制要求苛刻等因素影响,工程实现难度与运维门槛较高;另一类是原生RDMA的InfiniBand方案,因协议简洁、有效载荷比例高、交换转发时延低,被广泛用于高端训练与超算场景,但长期以来关键软硬件生态集中度高,供应链与适配能力存在不确定性。,构建自主可控的高端计算网络,不仅是技术选择,更关乎产业安全与长期竞争力。 影响——互联能力决定集群效率、稳定性与应用门槛。业内人士指出,万卡集群的通信效率会直接传导至训练周期、能耗与资源利用率:一上,时延与带宽决定梯度同步、参数更新等关键链路的等待时间;另一方面,拥塞丢包与故障恢复速度影响作业稳定性,作业重试与回滚将放大资源浪费。尤其多租户与混合负载场景下,网络的无损传输、隔离能力与可运维性,决定了算力中心能否以更低成本稳定向科研与产业提供服务。 对策——全栈自研400G无损互联,打通“芯片—设备—软件”关键环节。3月12日,中科曙光对外发布全栈自研400G无损高速网络产品scaleFabric。该方案面向大规模集群设计,采用原生无损RDMA技术路径,覆盖自研网卡芯片、自研交换芯片以及配套软件栈,形成从底层器件到系统级能力的整体方案。据介绍,涉及的网卡芯片支持400G高带宽并集成自研RDMA引擎;交换芯片实现64T双向交换容量,转发时延达到260纳秒级。产品形态上,包含400G单口标准网卡、1U 80口液冷交换机和2U 80口风冷交换机等,便于不同机房条件与部署规模灵活选型。 在可扩展性上,针对大规模组网的工程约束,scaleFabric通过系统与协议优化,将单子网支持规模提升至11.4万卡,较业内常见水平显著提高,并提出降低组网复杂度的同时深入压降建设成本。兼容性上,方案面向主流通信库与HPC/AI应用适配,强调迁移过程中降低改造量与运维负担,支持应用平滑过渡。 在可靠性与实用性上,相关测试数据显示,该方案端到端时延、单端口带宽等指标上达到国际先进水平,并在3万卡集群实测中实现网络效率提升超过40%,故障恢复时间缩短至毫秒级。另外,scaleFabric已在郑州国家超算互联网节点实现规模化部署,三套万卡集群在36小时内完成上线,累计服务客户超过1万家,处理作业超过10万次,体现出较强的工程落地能力。 前景——从“单点突破”走向“体系能力”,推动算力网络国产生态成型。业内认为,高端互联并非单一设备的性能竞赛,更是软硬件协同、标准适配与规模化运维的综合能力。中科曙光上表示,公司长期参与超算与大规模集群建设,高速互联应用与调优上积累较深;此次发布的全栈方案既服务外部用户,也将在自身算力平台中持续迭代优化,并计划与产业链伙伴加强协作,推动关键技术与接口能力开放共享,带动生态完善。

此次400G无损高速网络的突破填补了国内技术空白,为关键信息基础设施的自主可控树立了新标杆。在全球科技竞争加剧的背景下,只有坚持自主创新、掌握核心技术,才能在国际竞争中占据主动。这个成果也表明,数字经济时代需要加快构建安全可控的技术体系,为高质量发展奠定坚实基础。