采用“准随机”设计,让数据能够通过更多路径传输,减少拥堵
亚马逊宣布,其云计算部门AWS已经解决了一个困扰数据中心行业多年的核心难题:如何把“随机网络拓扑”真正应用到超大规模数据中心,并在现实环境中稳定运行。
传统数据中心大多采用“Fat Tree(胖树)”架构,数据流量需要经过层层交换机和路由器,随着AI和云计算规模不断扩大,这种架构越来越容易出现瓶颈。亚马逊开发的新架构名为“RNG(Resilient Network Graphs,弹性网络图)”,采用一种“准随机”设计,让数据能够通过更多路径传输,减少拥堵。
为了让这种复杂网络能够大规模部署,AWS还开发了两项关键技术:Spraypoint:新的流量路由系统,可自动将数据分散到不同路径。ShuffleBox:专门设计的光学设备,用于自动管理海量网络连接和线缆。
根据AWS公布的数据,新架构带来的效果包括:网络吞吐量提高约33%网络设备数量减少69%功耗下降约40%运营成本降低约27%至45%。
值得注意的是,AWS表示这项技术并非专门为生成式AI开发。相反,它主要针对日常云计算工作负载,帮助整个数据中心网络变得更高效。不过随着AI服务器数量激增,任何能够减少设备、降低耗电并提高传输效率的技术,都可能成为未来AI基础设施的重要竞争优势。
业内专家认为,随机网络理论已经研究了数十年,但此前从未有人成功在超大规模商业数据中心中落地。亚马逊能够实现实际部署,被一些网络研究人员称为“非凡的成就”。
为什么重要?当前AI行业最大的瓶颈之一已经不再只是GPU,而是数据中心内部网络和电力基础设施。随着数十万块AI芯片同时工作,服务器之间的数据传输能力越来越关键。亚马逊此次解决的并非芯片问题,而是“数据如何在数据中心内部高效流动”的问题,这可能成为未来AWS与Microsoft、Google等云服务巨头竞争的重要筹码。