一个有趣的评测：让大模型互相辩论，看谁能说服谁？详细的评测方法见：github.

蚁工厂 2026-03-28 12:02:26

一个有趣的评测：让大模型互相辩论，看谁能说服谁？详细的评测方法见：github.com/lechmazur/persuasion图1是综合能力榜。图2是能力四象限。右上：既能说服别人，自己又很难被撼动。（相对最好）左下：说服不了别人，且容易被别人说服。（相对最差）右下：能说服人，也能被别人说服。左上：防守性强（固执），但无法说服别人改变立场。综合最强的是GPT-5.4 (high)。国产模型里说服能力最强的是豆包，防守能力最强的是Kimi。只看防守能力最强的是Grok，最差的是小米的mimo。How I AI

0 阅读：15

猜你喜欢

刚刚，ClaudeCode的源码泄露了，快去Fork。啥？源码泄露了，C

刚刚，ClaudeCode的源码泄露了，快去Fork。啥？源码泄露了，C

【1点赞】

GitHub 网络安全

笑死，GitHub上面有一个叫PUA的项目，目前已经10k的Star

笑死，GitHub上面有一个叫PUA的项目，目前已经10k的Star

【2点赞】

GitHub

AI模型越来越多，真正能坐主桌的，其实只有3个：ChatGPT强在全能通

AI模型越来越多，真正能坐主桌的，其实只有3个：ChatGPT强在全能通

【1评论】【2点赞】

chatgpt ai 人工智能

花一万多买的iPhone17ProMax，正常用一个多月直接从橙变粉，以前

花一万多买的iPhone17ProMax，正常用一个多月直接从橙变粉，以前

【7评论】【7点赞】

iPhone 苹果

小米千万年薪从DeepSeek挖来的AI天才罗福莉，被问小米大模型优势时的回答

小米千万年薪从DeepSeek挖来的AI天才罗福莉，被问小米大模型优势时的回答

【80评论】【8点赞】

小米科技 ai deepseek 互联网公司人工智能

折腾了一天openclaw，也没感觉跟豆包、DeepSeek有啥区别。

折腾了一天openclaw，也没感觉跟豆包、DeepSeek有啥区别。

【5评论】【8点赞】

deepseek 豆包电脑

【从ClaudeCode源码泄露，看AI工程实践的软肋】快速阅读：就在今天，A

【从ClaudeCode源码泄露，看AI工程实践的软肋】快速阅读：就在今天，A

ai anthropic 人工智能

感谢大家的关注

作者最新文章

1

C891F EZCastPlus合金（用在小米YU7的一体化压铸铝三角梁上），

2

Claude发了篇官方的提示词工程最佳实践。这里翻译下其中的常见提示词问题排查和

3

试了下让GPT5.1和其他大模型来解刚才冯诺依曼做的那个无穷级数的题，几个大模型

4

说个笑话，微博发布的新模型VibeThinker-1.5B ，跑到推上去发模型发

5

大模型版的“十字路口”深度访谈来了！Nathan Lambert （《基于人类反

6

Google这个月已经发了三本关于智能体的白皮书了，这里汇总一下：1️⃣智能体入

7

Sebastian Raschka分享了如何如何高效阅读技术书籍（尤其是他那些关

8

麻省理工整理的一些编程竞赛资源，如奥赛这类的mitit.org/Contest/

9

“人人都好像觉得模型已经准备好取代人类工作了。我们通过创建一家公司（电商），让9

10

杨立昆得过图灵奖，还蛮符合苏州人才引进政策的，趁机过来得了。（明年就不行了，超过

热门分类

科技TOP

1

库克也找马斯克合影，马斯克是不是白的喝多了有人说这俩都从美国来的，在中国合影干啥

2

成功了，俄罗斯光刻机终于研发出来了！俄罗斯ProgressSTP-350光刻机

3

大厂疯狂开源，不怕抄袭了？格局变大了？还是别天真了，商场没雷锋，全是阳谋……

4

魅族懵了！小米也懵了，第一个把副屏干成"奢侈品"的，居然是荣耀！磁吸副屏终于来

5

我也越来越像个“旁观者”……用过功能机、翻盖机，也见过智能机怎么一步步把生活

6

折叠屏这些年一直被吐槽“能用但不好用”，所以到底是不好用还是做不好？这次华为

7

华为放大招！麒麟2026+韬定律，彻底跳出芯片卡脖子！刚从ISCAS2026现

8

为什么中文正在被AI“偷偷加价”？同样一句话，中文消耗的Token比英文更多

9

80后真的见证了时代巨变用过算盘、计算器、DOS、win95、98、2000、X

10

贾跃亭又拿到7000万美元投资贾跃亭又拿到了7000万美元的融资，目标是五年内在

科技最新文章

1

荣耀600价格大家觉得这个价格怎么样？

2

华为下半年麒麟9050处理器真有可能采用自研自研3nm工艺技术了，有大升级黑科技

3

荣耀WINTurbo也是10000mAh大电池~

4

京东采销说今天买手机无敌便宜京东采购都被骂成啥样了？今天买便宜，618买就不便宜

5

华为nova16系列外观公布了，四个机型，nova16、nova16

6

vivoY600Turbo上线了新机来了8+256首发159612+2

7

华为放大招！麒麟2026+韬定律，彻底跳出芯片卡脖子！刚从ISCAS2026现

8

#微信视频电话支持横屏#【微信重大更新：电脑端也能“边写边译”，视频通话支持横屏

9

成功了，俄罗斯光刻机终于研发出来了！俄罗斯ProgressSTP-350光刻机

10

老规矩，猜一下OPPOReno1612+256起售价，猜对前10名请喝可乐🥤