小米MiMo大模型负责人罗福莉刚刚发布长文，简要解释了MiMo系列模型昨

这个科技很盒里 2026-05-27 22:19:18

小米 MiMo 大模型负责人罗福莉刚刚发布长文，简要解释了 MiMo 系列模型昨晚为什么会突然大降价：

此次降价幅度最大的是 Input（Cache Hit）端，降幅高达 99%。究其核心，在于我们的推理框架现已全面支持针对 SWA（滑动窗口注意力）的分层 KV Cache 优化。

来自生产环境推理引擎的测试表明，该优化将 Token 缓存容量直接提升了 5 倍，等效于降低了 80% 的缓存成本。

再结合混合（Hybrid）模型中多个 Full Attention 模块间的 Cache Read Overlap（缓存读取重叠）机制，实际成本被进一步压缩。

同时，Input（Cache Miss）与 Output 的价格也下调了 60% 至 80%。这主要归功于模型架构带来的极致稀疏比 —— Full Attention 与 SWA 的比例达到了 1:7（以 70 层的 MiMo-V2.5-Pro 为例，其 Prefill 阶段的算力开销仅相当于一个 10 层的 GQA 模型）。

得益于这种架构优势，我们原有的推理成本本就远低于行业均值，在定价上天然预留了 2 到 3 倍的利润空间。

此次调价，仅仅是我们决定将这种结构性的成本优势，直接让利给开发者。

在执行全新的 API 价格后，目前我们的线上推理引擎在接近满负荷的工况下，依然能基本实现盈亏平衡。

我们此前曾建议大模型公司不要“盲目降价”，正是因为业内极少有模型架构和推理优化方案，能在不陷入亏损的情况下支撑起 API 成本。

未来，如果能涌现出更多节省算力与 KV Cache 的新架构，并辅以更优秀的推理 Infra 来持续压低 API 成本，整个行业将形成一个极佳的良性循环。

更关键的是，平价且高性能的模型 API 将真正催生出真实、持久且规模化的推理需求。

这一上游需求将向上拉动整个 AI 基础设施产业链的演进 ——涵盖芯片、服务器、光模块、PCB、液冷、电力、储能及数据中心，成为对 AI 硬件进行系统性价值重估的战略支点。

长远来看，这将为训练与推理全链路注入更普惠、更易获取的算力，从而加速全球 AGI 在多地域、多技术路线上的并行演进。

关于更多的技术细节，我们将在后续发布的技术博客中进行详尽解析。

0 阅读：1

这个科技很盒里

感谢大家的关注

作者最新文章

1

『美联社』分析了美股上市公司所披露的 337 位高管的2025 年度薪酬，得到了

2

『华尔街日报』用六张图表分析了芯片股当下的形式：图1：创纪录的开局2026 年开

3

我已经得了 AI PTSD，哪怕是自己在写文章，只要写出『不是……而是……』这样

4

小米 MiMo 大模型负责人罗福莉刚刚发布长文，简要解释了 MiMo 系列模型昨

5

高盛刚刚盘点了一组关于 SaaS 的惨淡数据：年初至今，软件与服务板块下跌了 1

6

『麻省理工科技评论』呼吁全社会应救救年轻人，关注 AI 对入门级职位的毁灭效应。

7

我觉得 Lenny 采访 Every CEO Dan Shipper 的这期播客

8

我去，小米刚刚无预兆突然宣布 MiMo-V2.5 系列 API 永久降价，新定价

9

一起来关注下 OpenAI 的广告业务进展。此前高贵的 OpenAI，终于在营收

10

『The Information』刚刚透露了 OpenAI 公关负责人的招聘进展

科技TOP

1

库克也找马斯克合影，马斯克是不是白的喝多了有人说这俩都从美国来的，在中国合影干啥

2

成功了，俄罗斯光刻机终于研发出来了！俄罗斯ProgressSTP-350光刻机

3

大厂疯狂开源，不怕抄袭了？格局变大了？还是别天真了，商场没雷锋，全是阳谋……

4

魅族懵了！小米也懵了，第一个把副屏干成"奢侈品"的，居然是荣耀！磁吸副屏终于来

5

华为放大招！麒麟2026+韬定律，彻底跳出芯片卡脖子！刚从ISCAS2026现

6

为什么中文正在被AI“偷偷加价”？同样一句话，中文消耗的Token比英文更多

7

贾跃亭又拿到7000万美元投资贾跃亭又拿到了7000万美元的融资，目标是五年内在

8

80后真的见证了时代巨变用过算盘、计算器、DOS、win95、98、2000、X

9

兄弟们，摩托罗拉motorazr70Ultra正式发布，直接7499起

10

iPhone20渲染视频一个非常核心的升级就是正面是一整块屏幕，没有挖孔，而且是

科技最新文章

1

黄仁勋加入清华大学顾问委员会搜了下，这个委员会的现任主席是苹果CEO库克，其

2

vivo首款头戴降噪耳机配置还行，看怎么定价了，降噪最大深度58dB，重量

3

老黄加入了清华大学经济管理顾问委员会，该委员会的使命是加强学院与外部各界的联系，

4

DeepSeek崩了现在已经修复了，但崩的次数有点太频繁了，每个月都要来上这么一

5

折叠iPhone首批保护壳亮相了，看完图其实心里只有一个想法：既然这么复杂，还是

6

荣耀OS这波更新！锁屏直接封神了家人们。首款3D动态景深锁屏+通透到发光～

7

雷鸟GTMax售价2599元、雷鸟GT售价1899元。雷鸟GT

8

空调并不是开26度最省电开空调本就是为了凉快舒适，调到27、28度不冷不热，

9

最近两天，荣耀手机连续“翻车”，5月25日国行版荣耀600系列发布会公布价格时，

10

惊现名场面！荣耀500和荣耀600还是迎来了同台竞技，不过还是荣耀500出手狠辣