国产模型在于「雕」,海外模型在于「怼」(1109) 就像股价沿着阻力最小路径演

丹萱谈生活文化 2025-11-10 09:12:41

国产模型在于「雕」,海外模型在于「怼」(1109) 就像股价沿着阻力最小路径演进,技术迭代也是。 国内「雕」即雕花,雕的原因在于算力不足,「雕」就是最小阻力路径。MiniMax模型训练者有这么一个发问“如果你有无限算力,你会选择研究Linear /Sparse Attention吗?”由于MoE已成共识,所以Transformer架构里最值得「雕」的是Attention模块 ,这也是国内发力重点。DeepSeek V3.2使用Sparse(稀疏)Attention,选择出“值得算”的token计算;阿里Qwen3-Next、Kimi Linear采用混合注意力,Linear(线性)+Full Attention,且比例都是1:3(共识)。 海外「怼」在于怼算力+数据,不受算力限制+融资手段丰富,「怼」就是最小阻力路径。数据上,从Scale AI、Surge AI等数据标注公司的10亿美金级别年收入能看出来;算力上,看OpenAI的30+GW、xAI的20万+集群就行。 国内Attention的优化是不是一条终极路径,目前没法下结论。MiniMax在M2模型中,放弃了上一代M1模型混合Attention,再次回归到Full Attention,原因是发现在处理复杂的大规模多跳推理任务,混合Attention效果不好。究竟是混合Attention不行了,海外怼算力才是“终局”,还是说混合Attention提升后更好,这个只能 走一步看一步 。但是目前对于国内算力现状来说,Attention优化或是当下最适合的路径 。 无需担心算力和存储需求,国产算力依然应坚定。诚然每次国产模型更新,都不可避免”提效“:DeepSeek V3省算力成本,Kimi K2 Thinking采用Int 4 大幅减少显存和延迟(CNBC的460万美金训练成本,非官方信息);稀疏Attention少“算”,线性减少“算+存”。不能直接的认为利空算力、存储 ,而是要看到”省“的本质——在于供给不足、需求太多。那提效后,必然会被更多需求拉升需求总量。国产算力的支持,从DeepSeek V3.1、K2 Thinking都能明显看到针对国产算力的优化,依然应坚定。

0 阅读:1
丹萱谈生活文化

丹萱谈生活文化

感谢大家的关注