ai算力集群正加快把规模扩充到万卡、十万卡的级别

AI算力集群正加快把规模扩充到万卡、十万卡的级别,这对能提供高性能连接的网络提出了更高要求。智通财经APP了解到,中金的研报提到,这类高速互连网络就像连接各组件的“神经枢纽”,直接关系到集群算力能不能真正发挥出来。现在做智算时常用的方案主要是InfiniBand(IB)和RoCE v2,但核心技术和生态以前都被海外厂商控制着。 国产的AI基础设施建设现在跑得很快,高速互连网络这块正面临着突破的好机会。中金指出,通过自研硬件和底层架构入手,国产的RDMA高速互连技术有望把这块产业从国外手里抢回来。这种技术的好处是能绕过操作系统和CPU的调度,直接读写远端内存,不仅速度快还能省CPU资源。 目前主流的RDMA方案有IB、RoCE还有iWARP三种。IB是专门为高性能设计的原生网络;RoCE是把它套进以太网里用;iWARP则是通过标准以太网协议来实现的。虽然都能做无损传输,但IB在端到端的性能表现上是最好的。 中科曙光推出的scale Fabric就是国内自研的400G无损RDMA架构,它用了和IB一样的流控机制还有类IB的网卡芯片。这东西能跑400Gb/s的带宽,延迟还能做到1微秒以下,这就解决了国产超大规模算力集群在网络互联上的难题。现在scale Fabric已经支撑了中科曙光的万卡集群落地,以后大规模部署大规模算力集群的时候就不愁网络问题了。 考虑到这些情况,中金建议投资者关注中科曙光(603019.SH)。当然这里面还是有风险的,比如国产生态能不能真正成熟起来,或者是算力建设进度会不会不及预期。