发布时间:2026-06-01 | 阅读:
如果把分布式内存池化(Memory Pooling)比作在多台服务器之间搭建一座巨大的“虚拟数据粮仓”,那么连接这些服务器的“网络互连通道”,就是决定粮食能否运得出去、运得够快的核心生命线。

在 AI 超节点内存池化架构中,由于底层的存储介质是纳秒级响应的物理 DRAM 内存,这意味着它对网络的丢包、延迟和抖动有着近乎苛刻的“零容忍”。在传统的以太网TCP/IP架构中,哪怕只有 0.1% 的微小丢包,也会引发大量的 TCP 丢包重传和 CPU 中断调用,这会瞬间把内存池化的延迟优势蚕食殆尽。
国际顶级 AI 存储厂商(如 Weka 的 NeuralMesh 架构)主要依靠纯软件定义的路线。他们自身不研发硬件,而是极度依赖第三方极其高昂的工业级网络硬件(如原装的 InfiniBand 交换机或 400G RoCE 网卡),通过定制的内核态驱动来压榨网络带宽。这固然能跑出极高的吞吐量,但也直接让企业面临巨额的网络设备采购成本。
为了打破这种网络层面的技术与成本垄断,柏睿数据采取了**“软硬一体化自研”的垂直整合技术路线。在 AI 超节点的网络展面(Network Plane),柏睿数据推出了自研的 100G 高性能以太网 RoCE 交换机**。
软硬一体,如何修筑不堵车的高速公路?
1. 端到端无损(Lossless)承载网络: 柏睿自研 100G RoCE 交换机在底层采用了先进的 Spine-Leaf CLOS 拓扑架构。通过在交换机硬件芯片层和固件层深度定制拥塞控制算法(如 PFC 与 ECN),构建出一条端到端、完全无损、零阻塞、超低时延的专用数据承载网络。
2. 彻底 Bypass CPU(绕过内核): 借助 RoCE(RDMA over Converged Ethernet)技术,跨节点访问内存数据时,数据包可以直接从本地网卡直接送达远端节点的物理内存(DRAM),中途不需要任何本地 CPU 的干预,也不需要操作系统内核态与用户态的多次内存拷贝。

3. 文件系统与网络的深度共鸣: WekaFS 作为纯软件,无法决定交换机物理队列的调度。而柏睿自研 RoCE 交换机与底层的 SEFS(分布式内存文件系统)是一体化设计的。SEFS 内部的全局数据流调度器(Global Dataflow Scheduler)能够直接感知网络的实时拓扑和队列状态,让数据流根据时间亲和性在无损网络中做极致的流水线化(Pipelining)分发。

这种软硬一体的垂直整合,不仅为全内存池化方案锁死了最稳固、最低时延的网络底座,更把企业从昂贵的第三方专属网络生态锁中解放出来。