DeepSeek-V4论文中CSA(CompressedSparseAtte

蚁工厂 2026-04-28 21:24:21

DeepSeek-V4论文中CSA(Compressed Sparse Attention)的参考实现。www.k-a.in/CSA.html

作者把论文中的关键公式逐段落实成 PyTorch 实现,涵盖 token 压缩、稀疏索引、滑动窗口 KV、共享 KV 注意力和输出投影,并拿它和标准多头注意力(MHA)比较 KV cache 占用、训练收敛、前向延迟和长上下文 passkey retrieval 表现。AI创造营

0 阅读:0
蚁工厂

蚁工厂

感谢大家的关注