疑似偷看答案打榜拿高分？AI圈这瓜真大

大厂学长爆料 2026-04-12 23:40:56

看到一个分数，我愣了好几秒。 77分输给了64分？这什么情况？这不是简单的数学题，是AI圈最近爆出的"榜单罗生门"。说实话，我一开始也搞不懂怎么回事。事情发生在OpenAI主导的MLE-Bench考试上。百度伐谋团队本来两度登顶，结果2026年2月被一家叫Disarray的创业公司反超。77分，近乎满分。但这个"完美分数"很快就被人盯上了。有人在GitHub上直接开帖质疑：GPS任务误差0.0？这就像考试每道题都拿满分，连涂改都没有。物理上怎么可能？ Disarray的回应是"这只是资源管理机制"。但质疑的人不买账：你们跑题的时候，是不是偷看了答案？这场争论持续了好几个月。规则派说技术上可行但要明说，学术派坚持要拆榜单。两边吵得不可开交。最后MLE-Bench做了个决定：新增一个"No Private LB"清洁榜单。不允许在跑题过程中看任何反馈信号。结果呢？百度伐谋以64.44分，重回真榜单全球第一。这个看似"更低"的分数，反而是最干净的证明。你说，是分数漂亮重要，还是拿分的方式重要？榜单会变，规则会改。但"怎么拿分"这件事，比"拿多少分"更说明问题。就像考试，有人靠真本事，有人提前看了答案。分数能骗人，实力骗不了人。

0 阅读：7

猜你喜欢

大家看看到底是不是AI，感觉很惊艳了

大家看看到底是不是AI，感觉很惊艳了

【3评论】【2点赞】

ai 人工智能

有作者用AI写作不审稿直接发出来了

有作者用AI写作不审稿直接发出来了

ai 人工智能

AI就是为了这种时候存在的……算力终于没有被浪费

AI就是为了这种时候存在的……算力终于没有被浪费

【2评论】【2点赞】

ai 人工智能

不懂就问，这个是AI吗？

不懂就问，这个是AI吗？

【1评论】【1点赞】

ai 人工智能

AI：自刎归天

AI：自刎归天

ai

你看，我就说AI能造六代机嘛。

你看，我就说AI能造六代机嘛。

ai 六代机

“是绝望？是失望？英伟达总裁黄仁勋居然对着英国媒体说：中国将会毫无悬念赢得A

“是绝望？是失望？英伟达总裁黄仁勋居然对着英国媒体说：中国将会毫无悬念赢得A

【5评论】【4点赞】

英伟达 ai 黄仁勋芯片 it芯片

原来不管哪个AI，笨都是统一通病🤏

原来不管哪个AI，笨都是统一通病🤏

【4评论】【1点赞】

ai 无主人工智能

大厂学长爆料

感谢大家的关注

作者最新文章

1

AI视频从能生成到能交付，学长看懂了…

2

李想又发朋友圈了…但我没看懂要表达什么？

3

字节员工福利最新调整，2026最新版

4

突发！网易互娱市场负责人王怡调任海外…

5

就在刚刚！海底捞终于道歉了…

6

网传科大讯飞有人中了1500万彩票后离职…

7

阿里新财年首提智能体经济，要全力推进！

8

确认了，这对夫妻账号被封！

9

赌王何鸿燊女儿何超蕸去世，沉痛悼念！

10

刚刚，李想再发朋友圈回怼，感觉没必要…

热门分类

科技TOP

1

苹果公司近日为其员工送上了一份特殊的“生日礼物”，以此纪念品牌创立50周年。据悉

2

尚界Z7预售价22.98万起，Z7T预售价23.98万起，CLTC续航至高9

3

一图看懂OPPOFindX9sPro、OPPOFindX9Ultr

4

鸿蒙6.0系统又更新了，这次新增的功能还挺挺多的，主要是增加相机水印、以及图库的

5

苹果变形脸表情火了这个表情看上去不太聪明啊有一股子不聪明又透露着好奇和天真无邪的

6

给国内的ai排排座次，感觉有的高了，有的低了，有的太高了，有的太低了。

7

小米澎湃OS3“死亡笔记”更新了，小米官网产品安全中心更新部分终止维护（EOL

8

荣耀600Pro曝光：双2亿主摄+9000mAh电池，这配置绝了最近在网上看

9

【OpenAI完成其史上最大融资：OpenAI融资1220亿美元，估值达8520

10

太疯狂了！荣耀WIN2要把性能和续航卷出天际，等等党这下赢麻了[笑着哭]说实话，

科技最新文章

1

OPPOFindN6核心部件供应商确认，技术体验领先苹果半年界面新闻独家

2

又一次以1亿人民币起价的年薪为筹码的跳槽。

3

鸿蒙6.0系统又更新了，这次新增的功能还挺挺多的，主要是增加相机水印、以及图库的

4

一姐们儿说喜欢用苹果手机，评论区就被冲了，现在她每天发一条来回怼黑粉。看来当下的

5

华为畅享90ProMax电池测试报告：华为畅享90ProMax搭载华为有

6

【小米上线电池升级服务】据小米客服的最新介绍，小米商城已正式上线电池升级服务。这

7

荣耀电池又搞事！9000mAh变11000mAh？之前一直爆料荣耀600是

8

华为这下傻眼了吧[捂脸哭]荣耀竟然把Magic8Pro弄的那么狠，明明硬件配置优

9

小鹏GX这样的全尺寸大SUV，是面向家庭所有成员的车，所以在舒适性上装配的也非常

10

2026年还在用华为Mate30，七年老机优缺点很鲜明。缺点：6