首页 > AI教程资讯 >AI大模型“集体高考”,成绩单揭晓

AI大模型“集体高考”,成绩单揭晓

2025-06-11万象ai

央广网北京6月26日消息(记者 徐芳)2024年全国高考结束后,国内外众多AI大模型随之上阵,在考场外参加了一场“高考”。6月24日,极客公园高考新课标Ⅰ卷全科目大模型评测报告出炉,成绩单让广大网友很感兴趣。

据了解,本次“大模型考生”包括GPT-4o(OpenAI)、豆包(字节跳动)、文心4.0(百度)、百小应(百川智能)、通义千问2.5(阿里巴巴)、Kimi智能助手(月之暗面)、元宝(腾讯)、智谱清言(智谱AI)以及海螺AI(MiniMax)等。使用的考卷,是覆盖地域广泛的“新课标Ⅰ卷”,与河南省考生所用的考卷相同。

从考试成绩来看,在文科方面,GPT-4o以562分位列榜首,国产大模型豆包表现优异,斩获542.5分的高分,成功超过河南文科一本线20多分。据悉,2024年河南文科本科一批录取分数线为521分,豆包、文心4.0、百小应三款国产AI大模型成功“冲上一本线”。

AI大模型“集体高考”,成绩单揭晓

真实考题+名师阅卷文科表现出色,理科成绩欠佳

据了解,本次大模型“高考”,语文作文的阅卷人是北京市级骨干教师、怀柔区语文学科带头人夏老师。夏老师多次参与全国高考语文阅卷,经验颇为丰富。记者综合网络资料发现,在文科考试中,大模型们的表现普遍比较出色,特别是在语言类科目上,展现出了一定的逻辑与语言组织能力。然而在写作方面,尽管大模型的文章结构清晰、语言通顺,但普遍存在理性有余而感性不足的情况,缺乏感**彩与感染力。

理科方面,大模型们的成绩则普遍欠佳,多数大模型的理科总分在400分以下,与河南理科511分的一本线存在差距。

理科普遍不及格,大模型更像文科生

资料显示,在由历史、地理、**组成的新课标“文综”考卷评测中,GPT-4o获得237分,平均分79分,优于多数真实考生。

国产大模型产品中,豆包的文综成绩最高,为224.5分。历史科目最高分82.5分,豆包摘得;**科目最高分88分,GPT-4o摘得;地理科目最高分68分,GPT-4o摘得。

理科考试中,9款大模型产品里,数学考试只有GPT-4o、文心一言4.0和豆包获得60分以上的成绩,但面对满分150分的试卷,均未及格。在重点考查实验探究能力的化学和物理试卷中,各模型的平均分分别只有34分(满分100分)和39分(满分110分)。

尽管在理科考试中,各家大模型都有可圈可点之处,例如“豆包”大模型在求导题目和三角函数题上表现较好,展现出了一定的解题能力,但整体而言,在本次“高考”中数理科目全线不及格,大模型的理科最好成绩还无法进入真实考生的前30%。如何让大模型“文理兼修”,像人类一样思考和解决问题,大模型或许还有很长的路要走。

国产AI技术能力显著进步,挑战依然巨大

从这次“高考”结果来看,大模型在文科领域展现出了一定的优势,尤其在语言处理和知识记忆方面表现突出。河南高考分数段统计数据显示,GPT-4o的562分在文科考生中排名8811名,相当于真实考生的前2.45%,国产大模型“豆包”位列约4.27%的位置。在过去一年多的时间里,国产AI技术能力取得了显著进步。

理科领域,面对需要深度逻辑推理和灵活应变的问题时,大模型仍面临巨大挑战。这表明大模型在处理某些特定类型的任务时具备较强能力,但在综合运用知识和解决复杂实际问题方面,与人类的智力水平仍存在差距。

此次通过“高考”检验各家大模型,不仅备受业界及广大网友关注,对于大模型的发展也意义重大。一方面,为评估大模型的学习和知识运用能力提供了全新、客观的标准。同时,也让我们更加清晰地看到了各家大模型的优势和不足。在接下来的一年中,各家大模型将如何进步与发展,值得持续追踪。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表本站立场。文章及其配图仅供学习分享之

4033
708

游戏预约提醒

游戏正式上线前,我们将通过免费预约短信通知您

预约成功

我们将通过免费预约短信通知您

知道了

当前人数众多,预约失败!

知道了

您已预约,请等待通知!

知道了

隐私声明

严格遵守法律法规,遵循以下隐私保护原则,为您提供更加安全、可靠的服务:

1、安全可靠:

我们竭尽全力通过合理有效的信息安全技术及管理流程,防止您的信息泄露、损毁、丢失。

2、自主选择:

我们为您提供便利的信息管理选项,以便您做出合适的选择,管理您的个人信息

3、保护通信秘密:

我们严格遵照法律法规,保护您的通信秘密,为您提供安全的通信服务。

4、合理必要:

为了向您和其他用户提供更好的服务,我们仅收集必要的信息。

5、清晰透明:

我们努力使用简明易懂的表述,向您介绍隐私政策,以便您清晰地了解我们的信息处理方式。

6、将隐私保护融入产品设计:

我们在产品和服务研发、运营的各个环节,融入隐私保护的理念。

本《隐私政策》主要向您说明:

我们收集哪些信息 我们收集信息的用途 您所享有的权利

希望您仔细阅读《隐私政策》

为了让您有更好的体验、改善我们的服务或经您同意的其他用途,在符合相关法律法规的前提下,我们可能将通过某些服务所收集的信息用于我们的其他服务。例如,将您在使用我们某项服务时的信息,用于另一项服务中向您展示个性化的内容或广告、用于用户研究分析与统计等服务。

若您使用服务,即表示您认同我们在本政策中所述内容。除另有约定外,本政策所用术语与《服务协议》中的术语具有相同的涵义。

如您有问题,请联系我们。

应用权限

此应用程序需要访问以下内容

写入外部存储

允许程序写入外部存储,如SD卡上写文件

完全的网络访问权限

允许该应用创建网络套接字和使用自定义网络协议。浏览器和其他某些应用提供了向互联网发送数据的途径,因此应用无需该权限即可向互联网发送数据

拍摄照片和视频

允许访问摄像头进行拍照或录制视频

读取手机状态和身份

允许应用访问设备的电话功能。此权限可让应用确定本机号码和设备ID、是否正处于通话状态以及拨打的号码。

查看网络状态

允许应用程序查看所有网络的状态。例如存在和连接的网络

查看WLAN状态

允许程序访问WLAN网络状态信息

控制震动

允许应用控制振动设备

拨打电话

允许一个程序初始化一个电话拨号不需通过拨号用户界面需要用户确认,应用程序执行可能需要您付费