《Howpromptcachingworks-PagedAttent

爱生活爱珂珂 2025-12-02 06:58:10

《How prompt caching works - Paged Attention and Automatic Prefix Caching plus practical tips》作者分享了关于大语言模型（LLM）推理中“提示缓存”（prompt caching）的深入解析，结合自己在工作中的实践经验，揭示了缓存如何显著提升响应速度与成本效率。起初，他误以为缓存只在单次会话内有效，后来发现，提示缓存实际上是跨用户、跨请求共享的，关键在于“前缀缓存”——相同的系统提示和上下文前缀能被不同请求重用，避免重复计算。推理过程分为“预填充(prefill)”和“解码(decode)”两步。预填充耗算力，解码耗内存。通过存储和复用键值（KV）缓存，模型解码时只需计算新增token，大幅减少计算量。传统KV缓存面临GPU内存碎片和重复存储的问题。vLLM引入了类操作系统分页的“分页注意力（paged attention）”，将KV缓存拆分成固定大小的块（block），通过块哈希实现内容寻址和共享，支持跨请求缓存复用，极大提升内存利用率和服务并发能力。关键技术点包括：- 基于块的KV缓存分配和引用计数，支持多请求共享同一缓存块- 父哈希链保证因果关系，确保前缀完全一致才能缓存命中- 调度器寻找最长缓存前缀，跳过已缓存块的预填充计算- 稳定且只追加的上下文设计，提升缓存命中率- 一致性序列化和工具调用定义的稳定性，避免缓存失效作者还总结了实际提升缓存命中率的建议，如去除用户动态内容、保持上下文追加不删减、使用确定性序列化等。这篇文章不仅讲清了提示缓存的原理，更深入剖析了现代推理引擎如何借鉴操作系统内存管理思想，解决大规模并发推理中的性能瓶颈。理解这些机制，有助于开发者优化API调用成本和延迟，提升用户体验。原文：sankalp.bearblog.dev/how-prompt-caching-works/

0 阅读：0

爱生活爱珂珂

感谢大家的关注

作者最新文章

1

《Agentic AI: a comprehensive survey of a

2

Gemini 3和Nano Banana Pro的实用提示词技巧：1. 把AI当

3

《How prompt caching works - Paged Attent

4

在AI算力竞赛中，训练阶段一直是Nvidia GPU的天下，但未来的焦点正快速转

5

[LG]《ORION: Teaching Language Models to

6

[LG]《ThetaEvolve: Test-time Learning on

7

[LG]《Embedded Universal Predictive Intel

8

[LG]《DeepSeek-V3.2: Pushing the Frontier

9

早！早安

10

DeepSeek团队今日发布了DeepSeek-V3.2和DeepSeek-V3

热门分类

科技TOP

1

发布会还没有开，价格配置就全曝光了，荣耀手机的保密措施急需改进啊！如果爆料价格

2

昨天小鹏科技日最出圈的就是机器人全网都在找它是披着皮的真人的证据确实相比今年4月

3

为啥股价会跌？没看明白。单从步态讲小鹏机器人是全球走得最好最像人的。我平时研究临

4

【：最强Mate机皇】华为终端官宣将于11月25日举行华为Mate80系列/M

5

蹲完发布会价格环节直接惊到！标准版5499起，Pro版6999起，ProMax

6

华为Mate80真香！一下子拿下两台！Mate30正式退居二线

7

华为Mate80系列发布会大家在看了吗，开局歌声太雅了。全系2.5D玻璃+直角中

8

小鹏机器人“猫步”惊艳全场！网友疑是真人，何小鹏四字回应暗藏玄机昨日，第七届小

9

MagicOS10迎来重大更新，升级至116版本，内容很多，有1.2GB新增

10

太好了！荣耀Magic8Uitra没用直屏，还是四等深微曲屏！就连老大哥的

科技最新文章

1

朋友感觉手机买早了，肠子已经悔青，荣耀500早发布该有多好三千以内的中端机，8

2

我真TM服了，这姐妹居然说雷军职业生涯到头了？说个你不知道的冷知识：小米公司

3

三代同堂mate70这个感觉真的太经典了，比起另外两个，真的是青出于ma

4

华为这下恐怕傻眼了吧[捂脸哭]真是没有对比就没有伤害，诚然华为Mate80很给力，

5

鸿蒙正式版本终于来了6.0.0.115（sp16）1.68GB，本次更新将针对加

6

看到4699元的华为Mate80之后再看一眼4499元的荣耀Magic8我和

7

荣耀的管理层实在太狠了，系统开始全面向iPhone靠拢，生态兼容性直接拉满最

8

极限二选一！荣耀Magic6Pro和荣耀500Pro哪个更能打动你？[灵光一

9

没有对比就没有伤害！苹果17，8+256GB，卖5999小米17，12+25

10

国产旗舰机终于又回归直屏了！都说Mate80promax屏幕和拍照很强，有人