AI算力正从"计算"转向"连接" AI基础设施正在一层层突破瓶颈。 GPU

编程人路多辛 2026-06-02 21:41:45

AI算力正从"计算"转向"连接" AI基础设施正在一层层突破瓶颈。 GPU 算力首先爆发,大模型训练把计算密度推到了极致。接着是内存,更大的模型需要更大的带宽和容量,高带宽内存成了新的稀缺资源。而现在,瓶颈再次转移:连接能力正在成为定义 AI 系统性能的天花板。为什么?因为AI进入了 Agent 模式。 过去一个任务跑在一台机器上,现在智能体会把任务拆碎,分散到整个数据中心的成百上千个处理器上协同执行。指令分发、结果聚合、工具调用、记忆存取,每一步都在产生海量的内部通信。计算规模越大,连接的瓶颈就越凸显,现在各大云厂商都在为此重新规划网络架构。 物理规律也很残酷,铜缆传输带宽每翻一倍,有效距离就缩短一半。目前200Gbps单通道的极限是2.5米,刚好覆盖一个机架。下一代400Gbps到来时,铜缆将撑不住机架内部的全互联需求。这就是业界所说的"铜墙"。 突破路径已经清晰:共封装光学(CPO)。即把光纤直接引入芯片封装内部,紧邻计算单元,在板级层面替代铜质走线。这样就能把机架内的处理器集群从72个扩展到上千个,全部光互联。 更有想象力的是:当光互联彻底打破距离限制,未来的数据中心将是全解耦架构——XPU、内存、CPU各自独立成池,按工作负载实时动态组合。架构师第一次可以围绕模型的需求来设计系统,而不是被物理距离捆住手脚。 算力的尽头是连接,这正在成为 AI 基础设施的新共识。

0 阅读:3
编程人路多辛

编程人路多辛

感谢大家的关注