首页 新闻中心 让国产GPU跑出加速度:中国版 AI Inference Fabric基础设施的崛起

让国产GPU跑出加速度:中国版 AI Inference Fabric基础设施的崛起

发布时间:2026-06-12  |  阅读:

在大模型快速发展的今天,决定推理效率的并不只是GPU算力本身,更重要的是GPU能否持续获得数据供给。近期,基于天数智芯BI‑V150平台的测试表明,通过SEFS RoCE内存池设备叠加PD Firmware优化以及内存预取流水线,可以显著提升国产GPU的实际推理效率。

测试结果显示:Pipeline模式GPU利用率由20%提升至93%;低延迟模式TTFT3500ms降低至442msPipeline吞吐量由310 tok/s提升至404 tok/s。这些结果说明,数据
预取供给路径已经成为影响大模型推理性能的重要因素。

SEFS AI Inference Fabric
并非替代GPU,而是通过RoCE内存池
存储SEFS RuntimeFirmware级优化,让数据在GPU需要之前提前到位,减少等待时间,让GPU持续工作。

未来大模型基础设施的竞争,将逐步从单纯的GPU竞争转向Inference Fabric竞争。谁能够更高效地组织数据流、调度Tensor和管理KV Cache,谁就能够产生更多Token并降低推理成本。

此次BI‑V150测试验证了一条重要路径:国产GPU性能提升不仅依赖更大的芯片和更高的功耗,同样可以通过先进的
内存
数据供给体系获得跨越式提升。

2

GPU利用率

3

Token 延迟

4

Pipeline吞吐量

热门新闻