ai算力集群正加快把规模扩充到万卡、十万卡的级别

AI算力集群正加快把规模扩充到万卡、十万卡的级别，这对能提供高性能连接的网络提出了更高要求。智通财经APP了解到，中金的研报提到，这类高速互连网络就像连接各组件的“神经枢纽”，直接关系到集群算力能不能真正发挥出来。现在做智算时常用的方案主要是InfiniBand(IB)和RoCE v2，但核心技术和生态以前都被海外厂商控制着。国产的AI基础设施建设现在跑得很快，高速互连网络这块正面临着突破的好机会。中金指出，通过自研硬件和底层架构入手，国产的RDMA高速互连技术有望把这块产业从国外手里抢回来。这种技术的好处是能绕过操作系统和CPU的调度，直接读写远端内存，不仅速度快还能省CPU资源。目前主流的RDMA方案有IB、RoCE还有iWARP三种。IB是专门为高性能设计的原生网络；RoCE是把它套进以太网里用；iWARP则是通过标准以太网协议来实现的。虽然都能做无损传输，但IB在端到端的性能表现上是最好的。中科曙光推出的scale Fabric就是国内自研的400G无损RDMA架构，它用了和IB一样的流控机制还有类IB的网卡芯片。这东西能跑400Gb/s的带宽，延迟还能做到1微秒以下，这就解决了国产超大规模算力集群在网络互联上的难题。现在scale Fabric已经支撑了中科曙光的万卡集群落地，以后大规模部署大规模算力集群的时候就不愁网络问题了。考虑到这些情况，中金建议投资者关注中科曙光（603019.SH）。当然这里面还是有风险的，比如国产生态能不能真正成熟起来，或者是算力建设进度会不会不及预期。