AI大模型“高考”成绩公布:几乎都偏文,数学有点差,解题思路特别“轴”

张菲垭2024-07-30 07:51

2024年全国高考甫一结束,上海人工智能实验室旗下的大模型开源开放评测体系司南(OpenCompass)选取国内外7个AI大模型进行高考全科目测试,7名AI考生的试卷,由具有高考评卷经验的教师在不知考生身份的情况下判分。

日前,测试结果出炉:书生·浦语2.0系列文曲星大语言模型、阿里通义千问大模型Qwen2-72B以及GPT-4o的成绩在所有AI考生中位列前三。以今年河南省分数线为参考,这三名AI考生的文科成绩均超“一本线”,理科成绩稳居“二本线”之上。   

分析AI考生们交上的答卷,业内认为,在现阶段,大模型在解决记忆类和逻辑类难题时与人类有着天差地别的思考轨迹,但这也为此后AI的进化指明了方向。

语言类考试表现不俗,数学简答题成“越不过去的坎”   

此次测试结果显示,AI考生都有些偏科,且貌似都是“文科生”。

7个大模型中,有4个在新课标I卷的英语测试中取得130以上的高分,其中GPT-4o拔得英语测试头筹,还在作文上得到了一位英语阅卷老师的欣赏,称其“句型丰富,语言无瑕疵”,只是字数稍少,所以酌情扣1分。

此外,AI考生的语文新课标I卷答题表现也不错:在现代文阅读、古诗文阅读、名句默写和作文上均有高于70%的平均得分率。

AI通常被认为应该在逻辑思维方面有着出色能力,但此次测试中,AI考生面对数学新课标I卷几乎“全军覆没”,得分均未达到总分的一半(即75分)。数学简答题更成了这群考生“越不过去的坎”,五道简答题的平均得分率仅为18.9%。 

复旦大学计算机科学技术学院教授张军平介绍,此次参加测试的AI考生都是语言类大模型,接受过语料库训练,因此在作答语言类试卷时较有优势。而在数理类科目的考查中,由于要求考生具有一定推理能力,而这项能力一直以来都是大模型的短板。   

“快系统”思维模式,让AI考生不会“打草稿”  

为啥AI考生会偏科,还偏得如此厉害?多位深耕人工智能领域的研究者指出,这和现阶段大模型的“思考”方式有很大关系。 

“做题时,人一般是先形成解题思路,然后再作答。但AI则不然,不管三七二十一,直接硬做,做不出来再‘乱凑’。”上海人工智能实验室相关负责人告诉记者,数理类题目的解题过程有极高的不确定性,因此,人类考生通常会先在草稿纸上理清思路,再开始答题。而大模型则是依次生成文本,缺乏一种“打草稿”的能力,答题时如果它们一开始思路走偏,基本就没有挽回余地。  

“AI考生和人类考生的这两种思维模式,分别可以类比为丹尼尔·卡尼曼在《思考,快与慢》中提出的‘快系统’和‘慢系统’。”张军平解释说,AI总是快速输出答案,运用概率运算模拟推理过程,而人类对问题的认识往往依赖经验积累,可以整体、宏观地看事物,所以也看得更深入些。 

试卷上暴露的问题,也是AI发展的“新考卷”   

在高考这场选拔赛上,人类暂时还是远超AI的。“组织AI大模型参加高考,是为了评测当前大模型的真实水平,找准问题,持续推进技术进步。”上海人工智能实验室相关负责人强调,AI考生的成绩同时暴露了大模型的优势及软肋,也为其未来的发展提出了许多值得思考的方向。

上海人工智能实验室相关负责人告诉记者,大部分模型尚不存在自行纠错的能力,做错了也要“硬闯”到底,甚至通过“胡说八道”圆回来。所以,提升纠错能力或许是未来大模型训练中需要格外注意的。   

此外,大模型的“幻觉”仍然存在,它们会“一本正经”地虚构内容。“此次测试中,有的大模型会杜撰诗句,让部分阅卷老师误以为真的存在它们编出的某首诗,只是自己不知道。”人工智能实验室相关负责人补充,如何提升AI的可信度,仍然在路上。

来源:文汇报 作者:张菲垭

版权与免责:以上作品(包括文、图、音视频)版权归发布者【张菲垭】所有。本App为发布者提供信息发布平台服务,不代表经观的观点和构成投资等建议
Baidu
map