小米MiMo大模型负责人罗福莉刚刚发布长文,简要解释了MiMo系列模型昨

这个科技很盒里 2026-05-27 22:19:18

小米 MiMo 大模型负责人罗福莉刚刚发布长文,简要解释了 MiMo 系列模型昨晚为什么会突然大降价:

此次降价幅度最大的是 Input(Cache Hit)端,降幅高达 99%。究其核心,在于我们的推理框架现已全面支持针对 SWA(滑动窗口注意力)的分层 KV Cache 优化。

来自生产环境推理引擎的测试表明,该优化将 Token 缓存容量直接提升了 5 倍,等效于降低了 80% 的缓存成本。

再结合混合(Hybrid)模型中多个 Full Attention 模块间的 Cache Read Overlap(缓存读取重叠)机制,实际成本被进一步压缩。

同时,Input(Cache Miss)与 Output 的价格也下调了 60% 至 80%。这主要归功于模型架构带来的极致稀疏比 —— Full Attention 与 SWA 的比例达到了 1:7(以 70 层的 MiMo-V2.5-Pro 为例,其 Prefill 阶段的算力开销仅相当于一个 10 层的 GQA 模型)。

得益于这种架构优势,我们原有的推理成本本就远低于行业均值,在定价上天然预留了 2 到 3 倍的利润空间。

此次调价,仅仅是我们决定将这种结构性的成本优势,直接让利给开发者。

在执行全新的 API 价格后,目前我们的线上推理引擎在接近满负荷的工况下,依然能基本实现盈亏平衡。

我们此前曾建议大模型公司不要“盲目降价”,正是因为业内极少有模型架构和推理优化方案,能在不陷入亏损的情况下支撑起 API 成本。

未来,如果能涌现出更多节省算力与 KV Cache 的新架构,并辅以更优秀的推理 Infra 来持续压低 API 成本,整个行业将形成一个极佳的良性循环。

更关键的是,平价且高性能的模型 API 将真正催生出真实、持久且规模化的推理需求。

这一上游需求将向上拉动整个 AI 基础设施产业链的演进 ——涵 盖芯片、服务器、光模块、PCB、液冷、电力、储能及数据中心,成为对 AI 硬件进行系统性价值重估的战略支点。

长远来看,这将为训练与推理全链路注入更普惠、更易获取的算力,从而加速全球 AGI 在多地域、多技术路线上的并行演进。

关于更多的技术细节,我们将在后续发布的技术博客中进行详尽解析。

0 阅读:1
这个科技很盒里

这个科技很盒里

感谢大家的关注