评估大模型数学能力的榜单MathArena里,DeepSeek冲到开源第一且超过Claude-Opus-4.6、4.7了。和kimi2.6差不多。另外这个榜单里OpenAI是真猛。这个榜单只使用大模型没见过的题做评测,所以基本可以杜绝靠训练数据打榜的风险。AI创造营

评估大模型数学能力的榜单MathArena里,DeepSeek冲到开源第一且超过Claude-Opus-4.6、4.7了。和kimi2.6差不多。另外这个榜单里OpenAI是真猛。这个榜单只使用大模型没见过的题做评测,所以基本可以杜绝靠训练数据打榜的风险。AI创造营

猜你喜欢
【1评论】【2点赞】
【1评论】
【1评论】【4点赞】
【1点赞】
【14评论】【4点赞】
【2点赞】
作者最新文章
热门分类
科技TOP
科技最新文章