【小米MiMo-V2.5推理成本暴降99%！全链路优化揭秘：KVCache压缩至

烈焰小孩 2026-05-30 21:25:01

【小米MiMo-V2.5推理成本暴降99%！全链路优化揭秘：KVCache压缩至1/7】

小米5月30日公布MiMo-V2.5推理系统全栈优化方案，基于Hybrid SWA+MoE+多模态复合架构，重构KVCache管理、分级与前缀缓存、调度策略及Prefill/Decode流程，实现KVCache存储仅达同行约1/7，显著降低长序列推理成本。此前5月27日已对API实施永久降价，最高降幅99%，且不限输入长度。

-----

5月30日，小米正式发布MiMo-V2.5系列模型的推理系统全链路优化成果。

此次升级并非局部调优，而是以Hybrid SWA（混合软权重平均）、MoE（专家混合）与多模态能力深度融合为底座，对整个推理栈进行系统性重铸。

从底层KVCache高效压缩与动态分级缓存，到前缀复用机制、智能调度策略，再到Prefill与Decode双阶段协同优化，每一环均针对性突破。

实测显示，KVCache内存占用压缩至行业同级方案的约七分之一，尤其在万级token长文本场景下，显存压力与计算开销大幅收敛。

这一技术跃迁直接支撑了5月27日启动的API永久降价——最高降幅达99%，且价格策略完全不依赖输入长度，真正实现普惠式AI服务降本增效。

科技妈咪烈焰童子说科技先锋官

0 阅读：0

感谢大家的关注

作者最新文章

1

太太今晚给做了毛血旺

2

只是要个态度，共担风险的勇气都没有，这婚还能结吗？

3

难度真的一样吗？

4

万能的网友们，有懂的没，这个黄盒的和红盒的有什么区别？

5

这特么是“从小妈妈给我睡扁头”的热梗啊

6

此刻，只有真烟民能共情他

7

地域上来说，北方经济普遍差，南方会好很多；城市规模上来说，一线新一线好些，二三线

8

【小米MiMo-V2.5推理成本暴降99%！全链路优化揭秘：KVCache压缩至

9

Ai加速了工资倒挂，现在白领月收入越来越低，蓝领工人工资未来越来越高，在被替代性

10

【AI眼镜迎来爆发前夜！15家厂商密集亮相，国产供应链全面突破，2027年或现‘

科技TOP

1

库克也找马斯克合影，马斯克是不是白的喝多了有人说这俩都从美国来的，在中国合影干啥

2

成功了，俄罗斯光刻机终于研发出来了！俄罗斯ProgressSTP-350光刻机

3

大厂疯狂开源，不怕抄袭了？格局变大了？还是别天真了，商场没雷锋，全是阳谋……

4

魅族懵了！小米也懵了，第一个把副屏干成"奢侈品"的，居然是荣耀！磁吸副屏终于来

5

华为放大招！麒麟2026+韬定律，彻底跳出芯片卡脖子！刚从ISCAS2026现

6

为什么中文正在被AI“偷偷加价”？同样一句话，中文消耗的Token比英文更多

7

贾跃亭又拿到7000万美元投资贾跃亭又拿到了7000万美元的融资，目标是五年内在

8

80后真的见证了时代巨变用过算盘、计算器、DOS、win95、98、2000、X

9

兄弟们，摩托罗拉motorazr70Ultra正式发布，直接7499起

10

这个数据让人震惊，2025年Q4，在外卖领域，美团占了45%，淘宝居然占了45.

科技最新文章

1

天气越热，手机越烫手😭最近也太热了，体感直接上39度......整的iP

2

小米最可怕的，可能已经不是汽车了。很多人还在盯着SU7、YU7销量，结果这次财报

3

黄仁勋加入清华大学顾问委员会搜了下，这个委员会的现任主席是苹果CEO库克，其

4

vivo首款头戴降噪耳机配置还行，看怎么定价了，降噪最大深度58dB，重量

5

听我一句劝！现在就是荣耀500Pro的天下，性价比看它就行了荣耀

6

老黄加入了清华大学经济管理顾问委员会，该委员会的使命是加强学院与外部各界的联系，

7

DeepSeek崩了现在已经修复了，但崩的次数有点太频繁了，每个月都要来上这么一

8

折叠iPhone首批保护壳亮相了，看完图其实心里只有一个想法：既然这么复杂，还是

9

荣耀OS这波更新！锁屏直接封神了家人们。首款3D动态景深锁屏+通透到发光～

10

雷鸟GTMax售价2599元、雷鸟GT售价1899元。雷鸟GT