太共情了!上周跟一个做AIinfra的朋友喝酒,他抱怨说又被RoCE坑了一次。

黑科技就在身边 2026-04-16 14:31:00

太共情了!上周跟一个做AI infra的朋友喝酒,他抱怨说又被RoCE坑了一次。   他们那个集群跑的是MoE架构的大模型,通信量本来就大。某次训练任务跑了一半,突然整个集群的性能掉了一大截,一看监控,PFC死锁了。几个人熬了一整夜,调整水线参数、重启交换机,折腾到天亮才恢复。   “如果是IB,根本不会有这个事。”其实参数大家都看得懂:IB主流带宽已经到400G,RoCE还在200G;IB交换延迟300纳秒以下,RoCE在300到500之间。但真正用过的人知道,最要命的不是这些数字,而是底层机制的差异。   IB用的是基于信用的流控机制,发数据前先确认接收端有足够缓冲区,相当于高铁调度中心确认轨道空闲才发车,从源头杜绝丢包。RoCE的PFC呢?相当于路上堵了才发暂停指令让后车别跟了。这种事后补救的方式,在小规模集群里问题不大,一旦规模上去、流量模型复杂起来,分分钟给你搞出死锁。   运维成本呢?RoCE要实现所谓的“无损”,必须靠工程师持续观察流量、反复调整水线参数。今天调好的配置,明天流量模型一变,可能又要重调。而IB是集中式调度,即插即用,部署完就能跑,不用天天盯着。   所以那天朋友感叹了一句话:参数差一点还能忍,运维天天折腾真的受不了。   这也是为什么我觉得曙光推scaleFabric这事值得关注。他们做的正是国产原生IB网络,从交换芯片到上层软件全自研,把高铁模式的调度机制彻底国产化。在国家超算核心节点,36小时部署完3套万卡集群,交付就稳定跑到现在,10个多月没出幺蛾子。   对于真正跑业务的团队来说,稳定比什么都重要。毕竟没人想半夜被叫起来调PFC参数。

0 阅读:2
黑科技就在身边

黑科技就在身边

感谢大家的关注