做个很有意思的测试主流AI大模型做高考试题是啥水平?一、测试基本情况试卷:202

玉平评科技 2026-03-11 11:50:53

做个很有意思的测试主流AI大模型做高考试题是啥水平?

一、测试基本情况试卷:2025年普通高等学校招生全国统一考试(新高考II卷)数学测试对象:豆包、DeepSeek、通义千问、腾讯元宝(均为各厂商当前可用版本)评分标准:参考答案及评分细则,重点考察答案正确性及关键步骤完整性需要说明的是,本次测试为人工输入题目、逐一比对答案,未进行批量自动化测试,但每题结果均经复核。

从答题情况来看,四款模型均能正确完成全部题目,包括:单选题:全部正确,未出现明显误判多选题:全部选对,部分题目需识别多个正确选项,模型均未遗漏填空题:答案准确,包括需要精确计算的数值题解答题:答案正确,关键步骤完整,包括第18、19题等压轴题

几个细节有差异:解答题步骤呈现差异:不同模型对解题过程的展开程度不同。豆包和Deepseek有详细推导,元宝和千问回答相对简洁,但核心采分点均未缺失。

计算准确性:II卷涉及一定计算量,四款模型在处理复杂运算(如解析几何、数列求和)时均未出现计算错误。

压轴题处理:最后两道综合题(通常涉及函数导数与不等式证明)是区分度的关键。实测中,四款模型均给出了符合评分标准的解答。

不同模型的风格差异虽然分数相同,但四款模型在答题风格上有一定差异:豆包:步骤清晰,解题过程排班比较舒服DeepSeek:推理过程展开非常细,逻辑链条也非常完整,但是视觉观感不好千问:解题路径较为常规,没有太多“花哨”的技巧元宝:多步推理衔接较好,关键步骤有标注,排版也很舒服

测试排名:豆包>元宝>Deepseek>千问(纯主观)

其实,大模型参加高考数学并取得高分,近两年已不罕见。2024年起,已有多个模型在部分试卷中达到130分以上水平。到今年2026年出现“全员满分”的现象,说明主流大模型已经具备稳定的处理能力,这不是个别模型的突破,而是整体技术迭代的结果。

但是,“做对题”不等于“理解数学”,需要注意的是,模型能够正确解答高考题,目前的实现路径仍是基于大规模数据训练的模式匹配和计算推演,如果是新一年高考试题,未必能够拿下满分。

0 阅读:6
玉平评科技

玉平评科技

感谢大家的关注