看到一个分数,我愣了好几秒。
77分输给了64分?这什么情况?
这不是简单的数学题,是AI圈最近爆出的"榜单罗生门"。说实话,我一开始也搞不懂怎么回事。
事情发生在OpenAI主导的MLE-Bench考试上。百度伐谋团队本来两度登顶,结果2026年2月被一家叫Disarray的创业公司反超。77分,近乎满分。
但这个"完美分数"很快就被人盯上了。
有人在GitHub上直接开帖质疑:GPS任务误差0.0?这就像考试每道题都拿满分,连涂改都没有。物理上怎么可能?
Disarray的回应是"这只是资源管理机制"。但质疑的人不买账:你们跑题的时候,是不是偷看了答案?
这场争论持续了好几个月。规则派说技术上可行但要明说,学术派坚持要拆榜单。两边吵得不可开交。
最后MLE-Bench做了个决定:新增一个"No Private LB"清洁榜单。不允许在跑题过程中看任何反馈信号。
结果呢?百度伐谋以64.44分,重回真榜单全球第一。
这个看似"更低"的分数,反而是最干净的证明。
你说,是分数漂亮重要,还是拿分的方式重要?
榜单会变,规则会改。但"怎么拿分"这件事,比"拿多少分"更说明问题。
就像考试,有人靠真本事,有人提前看了答案。分数能骗人,实力骗不了人。

