全模态建模并不遵循均匀的ScalingLaw，以后不能一股脑堆料训练了？以前我

全模态建模并不遵循均匀的Scaling Law，以后不能一股脑堆料训练了？

以前我们聊大模型增长，默认就是 “均匀堆料”，参数、数据、算力一股脑往上堆，能力就跟着线性涨，这是最初大家摸透的增长规则。

但现在行业突然发现，之前的逻辑全不对了。

全模态的Scaling根本不是均匀的，不同模态要的资源完全不一样，语言模态对参数容量的敏感度更高，视觉模态对训练计算量的需求更大，模型根本不会平均分配算力和参数，而是动态向高需求模态倾斜。

杨⽴昆和谢赛宁在最新发表的论⽂中，就引⽤了某国产模型的技术报告，指出尽管使⽤了旨在⿎励均匀利⽤的辅助负载均衡损失，但统⼀多模态预训练分配给⽂本的专家数量仍显著多于视觉专家。

该发现和某大模型技术报告中的发现⼀致，就是语⾔是“参数需求型”的，⽽视觉是“数据需求型”的，所以模型会通过MoE⾃然地为语⾔分配更多专⽤容量。

这些最新研究都在表明，模型其实是“偏⼼”的。Scaling Law并不会把语⾔和视觉能⼒⼀起做强。所以，模型不再被假定为在不同模态上均匀扩展，⽽是需要根据模态进⾏差异化配置与优化。

这么看，原⽣多模态模型设计的基本认知被颠覆了。这是否意味着，下一代大模型的竞争，可能就不是比谁堆的参数多了，而是转向精细化的非均匀增长？

0 阅读：0

这么久了，大模型专家还是出来了