做个很有意思的测试主流AI大模型做高考试题是啥水平？一、测试基本情况试卷：202

做个很有意思的测试主流AI大模型做高考试题是啥水平？

一、测试基本情况试卷：2025年普通高等学校招生全国统一考试（新高考II卷）数学测试对象：豆包、DeepSeek、通义千问、腾讯元宝（均为各厂商当前可用版本）评分标准：参考答案及评分细则，重点考察答案正确性及关键步骤完整性需要说明的是，本次测试为人工输入题目、逐一比对答案，未进行批量自动化测试，但每题结果均经复核。

从答题情况来看，四款模型均能正确完成全部题目，包括：单选题：全部正确，未出现明显误判多选题：全部选对，部分题目需识别多个正确选项，模型均未遗漏填空题：答案准确，包括需要精确计算的数值题解答题：答案正确，关键步骤完整，包括第18、19题等压轴题

几个细节有差异：解答题步骤呈现差异：不同模型对解题过程的展开程度不同。豆包和Deepseek有详细推导，元宝和千问回答相对简洁，但核心采分点均未缺失。

计算准确性：II卷涉及一定计算量，四款模型在处理复杂运算（如解析几何、数列求和）时均未出现计算错误。

压轴题处理：最后两道综合题（通常涉及函数导数与不等式证明）是区分度的关键。实测中，四款模型均给出了符合评分标准的解答。

不同模型的风格差异虽然分数相同，但四款模型在答题风格上有一定差异：豆包：步骤清晰，解题过程排班比较舒服DeepSeek：推理过程展开非常细，逻辑链条也非常完整，但是视觉观感不好千问：解题路径较为常规，没有太多“花哨”的技巧元宝：多步推理衔接较好，关键步骤有标注，排版也很舒服

测试排名：豆包＞元宝＞Deepseek＞千问（纯主观）

其实，大模型参加高考数学并取得高分，近两年已不罕见。2024年起，已有多个模型在部分试卷中达到130分以上水平。到今年2026年出现“全员满分”的现象，说明主流大模型已经具备稳定的处理能力，这不是个别模型的突破，而是整体技术迭代的结果。

但是，“做对题”不等于“理解数学”，需要注意的是，模型能够正确解答高考题，目前的实现路径仍是基于大规模数据训练的模式匹配和计算推演，如果是新一年高考试题，未必能够拿下满分。