一个有趣的评测:让大模型互相辩论,看谁能说服谁?详细的评测方法见:github.

蚁工厂 2026-03-28 12:02:26

一个有趣的评测:让大模型互相辩论,看谁能说服谁?详细的评测方法见:github.com/lechmazur/persuasion图1是综合能力榜。图2是能力四象限。右上:既能说服别人,自己又很难被撼动。(相对最好)左下:说服不了别人,且容易被别人说服。(相对最差)右下:能说服人,也能被别人说服。左上:防守性强(固执),但无法说服别人改变立场。综合最强的是GPT-5.4 (high)。国产模型里说服能力最强的是豆包,防守能力最强的是Kimi。只看防守能力最强的是Grok,最差的是小米的mimo。How I AI

0 阅读:1
蚁工厂

蚁工厂

感谢大家的关注