AwniHannun分享了DeepSeekv3.2中稀疏注意力机制的简洁设计

爱生活爱珂珂 2025-10-01 10:58:08

Awni Hannun分享了DeepSeek v3.2中稀疏注意力机制的简洁设计思路：

- 先用一个完整的注意力层（或如DSV3中的MLA）。

- 同时用一个轻量级注意力层，仅计算query-key分数。

- 从轻量层中选出每个query的top-k索引。

- 用这些top-k索引限制完整注意力层关注的key和value范围。

轻量层虽然仍是二次复杂度，但设计得非常快（v3.2中只用一个key头，维度128）。这种两阶段过滤机制，兼顾效率与效果，值得与滑动窗口注意力及混合层方案如Mamba2对比性能和内存占用。

大家讨论中也提到：

- 轻量层的开销是否还优于滑动窗口，尤其在长序列上？

- Softmax 机制面临被替代的趋势。

- 这种设计思路体现了AI在效率和精度之间的平衡创新。

这不仅是技术细节，更是未来模型架构优化的重要方向。期待更多实测和分析，推动稀疏注意力更广泛应用。

原推文链接: x.com/awnihannun/status/1972763521185436088

0 阅读：0

爱生活爱珂珂

感谢大家的关注

作者最新文章

1

【[98星]awesome-VLLMs：汇集视觉语言大模型（VLLMs）应用的资

2

【[75星]OS1：在本地浏览器中重现电影《Her》中OS1/Samantha的

3

晚安～ [月亮] 晚安

4

【[123星]create-agent-app：帮你轻松选择AI Agent框架

5

【[365星]ElatoAI：基于OpenAI实时API和ESP32的AI语音交

6

【[377星]hail-hydrant/zxc：基于终端的拦截代理Agent，用

7

【[301星]Open Codex：一款开源的命令行AI助手，无需API即可在本

8

【[1.7k星]Suna：开源全能AI助手，用自然对话帮你搞定复杂任务。亮点：1

9

【[764星]Sapphire：为macOS打造的下一代Rust语言包管理器，用

10

【The Second Half：对AI未来发展的深度思考，讨论了人工智能领域从

热门分类

科技TOP

1

微信员工回应新iPhone提示空间不足早之前就有网友出现这个问题，要是还解决不了

2

OPPOFindX9的屏幕，由两条顶级产线共炼：第一条，OPPO独家定制行业

3

翻开王腾过去从业史，在好几家手机品牌都干过，在OPPO从2008年一直到2016

4

离职前，OPPO产品经理莫妮卡与客户网友的同框合影照。莫妮卡不仅漂亮清爽，还亲切

5

史上最薄iPhoneiPhoneAir现场真机实拍这外观给几分？

6

重磅！华为公布多颗新昇腾芯片9月18日，在华为全连接大会2025上，华为轮值

7

4499起步倒不算意外，但小米17Pro是4999起步倒是挺意外的。骁龙8

8

这么一比，谁说FindX9不好看的...OPPOFindX9的官方外观

9

iPhone17，终于亮相。今年的颜色都还不错呀，造型就是跟16基本一样。屏

10

一张X300和X200Promini的背面对比图，可以看到X300的大圆镜头比

科技最新文章

1

华为事情突发！任正非的女儿孟晚舟明天起担任华为的轮值董事长，任期到2026年

2

不听劝入手了荣耀Magic7，整个人都愣住了！大家听我的选手机千万不要光听人说，

3

不得不说现在的手机更新速度是真的快……我的Magic7到手还没捂热乎，Magic

4

刚看了下10月的新机发布安排，真的是太密集了。10月13日vivoX300

5

荣耀500系列配置前瞻，含荣耀500与荣耀500Pro。屏幕上，前者6.5英寸

6

荣耀Magic8Pro的真机外观图也释放出来了，感觉整体跟Magic7Pro

7

又一次定价失误的话，友商可不给你任何机会。华为M80要是再飘可就不好说了，产

8

余承东今天是双喜临门，不仅获得晋升，出任IRB主任，鸿蒙系统5终端装机量

9

米17PM：「7500mAh」「6.9英寸」「厚8mm」米15Pro：「61

10

一张X300和X200Promini的背面对比图，可以看到X300的大圆镜头比