我的单3090显卡在llama.cpp的256K上下文跑出51token/s:

团团谈美好科技 2026-05-27 11:18:21

我的单3090显卡在llama.cpp的256K上下文跑出51 token/s: 1.把上下文拉到Qwen3.6-27B的256K极限了,可惜到不了1M。跑出50多token/s,已经非常优秀了,对单卡3090来说越来越香了。 2.最新版本llama.cpp的b330分支,前前后后有多项提升和优化,尽快更新。 3.我的配置RTX3090显存24G+32G运存+llama.cpp(b330)+win11+cuda13.1 4.单卡本地中等模型非常适合和均衡了

0 阅读:6
团团谈美好科技

团团谈美好科技

感谢大家的关注