阿里巴巴这次新出的Qwen3-Next模型,可以说是又猛又省,新架构做了几个关

女侠剑心 2025-09-12 10:19:26

阿里巴巴这次新出的Qwen3-Next模型,可以说是又猛又省, 新架构做了几个关键升级,注意力机制更聪明、MoE结构更稀疏、训练更稳,还用了多token预测来提速!

最厉害的是,它虽然参数量高达800亿,但每次推理只激活30亿,结果性能居然媲美,甚至略超之前的32B全量模型,而训练成本不到十分之一,长文本推理速度还快了十倍以上!

这简直就是,用小电驴的耗电,跑出了超跑的速度,性价比直接拉满!

0 阅读:9

猜你喜欢

女侠剑心

女侠剑心

感谢大家的关注