评估大模型数学能力的榜单MathArena里,DeepSeek冲到开源第一且超过

蚁工厂 2026-04-26 17:09:56

评估大模型数学能力的榜单MathArena里,DeepSeek冲到开源第一且超过Claude-Opus-4.6、4.7了。和kimi2.6差不多。另外这个榜单里OpenAI是真猛。这个榜单只使用大模型没见过的题做评测,所以基本可以杜绝靠训练数据打榜的风险。AI创造营

0 阅读:13
蚁工厂

蚁工厂

感谢大家的关注