DeepSeek-V4论文中CSA(Compressed Sparse Attention)的参考实现。www.k-a.in/CSA.html
作者把论文中的关键公式逐段落实成 PyTorch 实现,涵盖 token 压缩、稀疏索引、滑动窗口 KV、共享 KV 注意力和输出投影,并拿它和标准多头注意力(MHA)比较 KV cache 占用、训练收敛、前向延迟和长上下文 passkey retrieval 表现。AI创造营

DeepSeek-V4论文中CSA(Compressed Sparse Attention)的参考实现。www.k-a.in/CSA.html
作者把论文中的关键公式逐段落实成 PyTorch 实现,涵盖 token 压缩、稀疏索引、滑动窗口 KV、共享 KV 注意力和输出投影,并拿它和标准多头注意力(MHA)比较 KV cache 占用、训练收敛、前向延迟和长上下文 passkey retrieval 表现。AI创造营

作者最新文章
热门分类
科技TOP
科技最新文章