刚开源就适配?海光这操作让Step 3.7 Flash跑得真溜 阶跃星辰刚把Step 3.7 Flash开源,海光DCU就直接完成了Day0推理适配。圈里朋友聊起来,都说这速度可以。 这次适配可不是简单能跑,而是把海光DCU的多项硬核能力都发挥了出来。比如FP8精度,搞技术的都知道,FP8比传统FP16在同卡上能多塞不少计算,显存占用降一截,通信开销也小了。这样一来,同样一张卡,跑出来的Token多了,每Token的能效比就上去了。对于做Agent应用的朋友,长多轮交互最怕显存爆掉导致任务跑偏,海光DCU的大显存设计正好兜住这个底。 Step 3.7 Flash本身也不是花架子。它原生能读懂UI、图表、文档,还能调用浏览器、API这些外部工具。这对算力卡的要求其实挺刁的,既要扛得住多模态输入的瞬时压力,又要保证工具调用链条稳定不中断。海光这次从算子优化到调度加速,把全栈DTK平台调了一遍,才做到发布即适配。 有朋友感叹,以前总觉得国产卡适配模型慢半拍,现在一看,还真是有点追平甚至领先的意思了。 人工智能 海光信息
