评估大模型数学能力的榜单MathArena里，DeepSeek冲到开源第一且超过

蚁工厂 2026-04-26 17:09:56

评估大模型数学能力的榜单MathArena里，DeepSeek冲到开源第一且超过Claude-Opus-4.6、4.7了。和kimi2.6差不多。另外这个榜单里OpenAI是真猛。这个榜单只使用大模型没见过的题做评测，所以基本可以杜绝靠训练数据打榜的风险。AI创造营

0 阅读：13

猜你喜欢

这种事多半只有大学生才能干得出🤣…

这种事多半只有大学生才能干得出🤣…

【1评论】【2点赞】

大学生大学就业

一位本科大学生的观点

一位本科大学生的观点

【1评论】

大学生大学

胖哥说彩，不懂什么高深的数学理论，只会看走势形态。我读书时就偏科，数学太烂，高中

胖哥说彩，不懂什么高深的数学理论，只会看走势形态。我读书时就偏科，数学太烂，高中

【1评论】【4点赞】

数学大乐透

论大学生的网购相似度能多高

论大学生的网购相似度能多高

【1点赞】

大学生大学就业

西南大学举行120周年校庆，这个低级错误是不是犯的不应该？近日，西南大学12

西南大学举行120周年校庆，这个低级错误是不是犯的不应该？近日，西南大学12

【14评论】【4点赞】

西南大学大学

师弟家的孩子在十三中的文科班，文科班的女生数学是头疼的，但是他们家孩子还行，基本

师弟家的孩子在十三中的文科班，文科班的女生数学是头疼的，但是他们家孩子还行，基本

数学高中生

高中数学竞赛校内选拔试题含答案有参考价值

高中数学竞赛校内选拔试题含答案有参考价值

【2点赞】

高中数学中小学

一道重庆九年级数学试题另解思路：利用正方形夹半角模型，12345结论，FN=a

一道重庆九年级数学试题另解思路：利用正方形夹半角模型，12345结论，FN=a

【1点赞】

重庆数学中小学

感谢大家的关注

作者最新文章

1

绿盟科技天机实验室负责人张云海的墓碑[蜡烛]大佬曾连续五年获得 Microsof

2

老用户换vivoX300值得吗刚看了影视飓风的评测，拍视频真强啊。搭配上长焦摄

3

Windows 10 将于北京时间 2025 年 10 月 14 日正式结束支持

4

curl命令速查表

5

AI模型的参数规模的增长速度，远远超过了AI硬件内存容量的增长速度。图自Roha

6

哥伦比亚大学统计学教授 Andrew 分享的使用贝叶斯推断的7个理由！----

7

1992年的IBM平板：ThinkPad 700T20MHZ的386CPU，4M

8

Thinking Machines Lab 联合创始人 Andrew Tullo

9

MineContext，字跳开源的类似Windows Copilot 的项目，不

10

[doge]发这个会被收版权费吗

热门分类

科技TOP

1

苹果公司近日为其员工送上了一份特殊的“生日礼物”，以此纪念品牌创立50周年。据悉

2

鸿蒙6.1的机型升级计划表，看看有没有你的机型，老机型几乎都是正式版，高端机型和

3

一图看懂OPPOFindX9sPro、OPPOFindX9Ultr

4

鸿蒙6.0系统又更新了，这次新增的功能还挺挺多的，主要是增加相机水印、以及图库的

5

小米澎湃OS3“死亡笔记”更新了，小米官网产品安全中心更新部分终止维护（EOL

6

荣耀600Pro曝光：双2亿主摄+9000mAh电池，这配置绝了最近在网上看

7

主流大模型横向横评：DeepSeek最新一代到底强在哪？

8

【OpenAI完成其史上最大融资：OpenAI融资1220亿美元，估值达8520

9

一部地图，如何逼得苹果CEO公开承认错误

10

DeepSeekV4震撼发布一图读懂它有多强：百万上下文、更强Agent、更

科技最新文章

1

主流大模型横向横评：DeepSeek最新一代到底强在哪？

2

DeepSeekV4震撼发布一图读懂它有多强：百万上下文、更强Agent、更

3

一加16这波操作，属实把取舍玩明白了！主动风扇没了，电池却猛增到9000毫安

4

数据一出，谁在裸泳已经一目了然1、荣耀WIN，120帧，36.1℃2、iQO

5

一部地图，如何逼得苹果CEO公开承认错误

6

太炸裂了！荣耀今年多款劲爆机型都在路上了，恐怕又要给友商一个小小的震撼[灵光一闪

7

iPhone18Pro蓝色曝光说真的，这个蓝色也太高级了。如果iPhone1

8

10200mAh超大电池~这个外观10分满分，你打几分？

9

憋了大半月，终于能说OPPOPadMini了！OPPOPadMini

10

我的华为Mate80ProMax已经更新HarmonyOS6.1.0.1