中科曙光发布首款全栈自研400G高速网络突破国产算力互联关键瓶颈

问题——算力跃升下“网络短板”日益突出；近年来，大模型训练和高性能计算任务快速增长，集群从千卡向万卡、乃至更大规模扩展成为常态。算力规模扩大并不必然带来效率同步提升，跨节点通信开销、同步等待与拥塞丢包等问题，往往使加速比下降，网络逐步成为影响整体吞吐与成本的关键变量。业内普遍认为，面向万卡集群的高带宽、低时延、无损传输与快速恢复能力，已成为算力基础设施的“必答题”。原因——主流方案各有掣肘，自主可控需求更为迫切。当前高速互联主要依赖两类技术路径：一类是以太网上叠加RDMA能力的RoCE方案，优势在于兼容IP生态，但在大规模集群中容易受到协议栈复杂、拥塞控制要求苛刻等因素影响，工程实现难度与运维门槛较高；另一类是原生RDMA的InfiniBand方案，因协议简洁、有效载荷比例高、交换转发时延低，被广泛用于高端训练与超算场景，但长期以来关键软硬件生态集中度高，供应链与适配能力存在不确定性。，构建自主可控的高端计算网络，不仅是技术选择，更关乎产业安全与长期竞争力。影响——互联能力决定集群效率、稳定性与应用门槛。业内人士指出，万卡集群的通信效率会直接传导至训练周期、能耗与资源利用率：一上，时延与带宽决定梯度同步、参数更新等关键链路的等待时间；另一方面，拥塞丢包与故障恢复速度影响作业稳定性，作业重试与回滚将放大资源浪费。尤其多租户与混合负载场景下，网络的无损传输、隔离能力与可运维性，决定了算力中心能否以更低成本稳定向科研与产业提供服务。对策——全栈自研400G无损互联，打通“芯片—设备—软件”关键环节。3月12日，中科曙光对外发布全栈自研400G无损高速网络产品scaleFabric。该方案面向大规模集群设计，采用原生无损RDMA技术路径，覆盖自研网卡芯片、自研交换芯片以及配套软件栈，形成从底层器件到系统级能力的整体方案。据介绍，涉及的网卡芯片支持400G高带宽并集成自研RDMA引擎；交换芯片实现64T双向交换容量，转发时延达到260纳秒级。产品形态上，包含400G单口标准网卡、1U 80口液冷交换机和2U 80口风冷交换机等，便于不同机房条件与部署规模灵活选型。在可扩展性上，针对大规模组网的工程约束，scaleFabric通过系统与协议优化，将单子网支持规模提升至11.4万卡，较业内常见水平显著提高，并提出降低组网复杂度的同时深入压降建设成本。兼容性上，方案面向主流通信库与HPC/AI应用适配，强调迁移过程中降低改造量与运维负担，支持应用平滑过渡。在可靠性与实用性上，相关测试数据显示，该方案端到端时延、单端口带宽等指标上达到国际先进水平，并在3万卡集群实测中实现网络效率提升超过40%，故障恢复时间缩短至毫秒级。另外，scaleFabric已在郑州国家超算互联网节点实现规模化部署，三套万卡集群在36小时内完成上线，累计服务客户超过1万家，处理作业超过10万次，体现出较强的工程落地能力。前景——从“单点突破”走向“体系能力”，推动算力网络国产生态成型。业内认为，高端互联并非单一设备的性能竞赛，更是软硬件协同、标准适配与规模化运维的综合能力。中科曙光上表示，公司长期参与超算与大规模集群建设，高速互联应用与调优上积累较深；此次发布的全栈方案既服务外部用户，也将在自身算力平台中持续迭代优化，并计划与产业链伙伴加强协作，推动关键技术与接口能力开放共享，带动生态完善。

此次400G无损高速网络的突破填补了国内技术空白，为关键信息基础设施的自主可控树立了新标杆。在全球科技竞争加剧的背景下，只有坚持自主创新、掌握核心技术，才能在国际竞争中占据主动。这个成果也表明，数字经济时代需要加快构建安全可控的技术体系，为高质量发展奠定坚实基础。

中科曙光发布首款全栈自研400G高速网络 突破国产算力互联关键瓶颈

中科曙光发布首款全栈自研400G高速网络突破国产算力互联关键瓶颈