记者 任晓宁 5月17日下午,智源在北京发布了对国内外140多个大模型的测评结果。有些令人意外的是,在一些面向三年级以下学生的测试题中,大模型的答题正确率还不如小学生。另外,根据测评结果,国产大模型在不同类别中都有突出表现,但并没有一个国产大模型公司能在所有领域都独占鳌头,比较领先的仍是美国AI研究公司OpenAI。
根据测评结果,字节跳动的豆包模型、阿里巴巴的通义模型分别在两个类别中排名第一名,百度的文心一言在3个类别中位列前五名,但都没有成为第一名。在单项类别中位列前五名的国产大模型,还来自百川智能、月之暗面、智谱华章、上海人工智能实验室、腾讯、爱诗科技等国内的公司和研究机构。
在5个细分类别中,OpenAI旗下的模型有3次位居榜首。
智源院长王仲远接受采访时说,测评结果说明,国内基座大模型支撑能力仍有很大的提升空间。他认为,这是当下国内大模型应用生态没有真正繁荣的主要原因。
对大模型做测评并不罕见,为什么智源现在做这件事?王仲远说,市场上对大模型的测评,绝大部分是开卷考试,容易导致大模型公司刷榜、刷题,无法保证客观公正。他研究AI长达十几年时间,即使作为一个业内人士,也无法准确得知大模型的优劣。长此以往,他担心会出现劣币驱逐良币的现象。
智源历时3个月完成了此次测评,它联合北京海淀教委以及中国传媒大学,使用了超过20余个数据集、8万道题(其中包括4000道主观题),让大模型作答。答案打分采取多人独立匿名评分机制。为了保持公正,智源自己研发的悟道大模型不参与测评。
智源是一家非营利性科研机构,也是国内最早做大模型的机构。王仲远说,他们没有任何商业利益诉求,因此在模型测评中能够保持中立的站位,这对模型测评非常重要。
国内模型能力并不均衡
为了对140多个大模型进行测评,智源将它们分为语言模型、多模态理解(图文问答)模型、多模态生成(文生图、文生视频)模型等多个类别。不同类别中都有表现突出的国产大模型,但并没有一个国产大模型在所有领域都能独占鳌头。
在语言模型主观测评中,字节跳动的豆包模型排名第一,排在其后的是GPT-4、百度的文心一言、月之暗面的Kimi、智谱华章的GLM-4。
在语言模型客观测评中,GPT-4排名第一,排在其后的是百川智能的Baichuan3、百度的文心一言、智谱华章的GLM-4、月之暗面的Kimi。
在图文问答模型测评中,排名第一的是阿里巴巴的通义模型,上海人工智能实验室在该类别有两个模型入选,其他国产模型没有入选。在文生图模型测评中,智谱华章、百度、字节跳动、OpenAI、Meta(脸书母公司)的模型位列前五。在文生视频模型测评中,爱诗科技、腾讯、OpenAI、Runway(美国文生视频公司)、Pika(美国文生视频公司)的模型入选前五。
“在中文语境下,国内语言模型的综合表现已经非常接近国际一流水平,中文大模型更懂中国人。”王仲远说。不过他也发现,国产大模型在能力上存在不均衡的情况,总体来看,国产大模型的文科能力比理科能力更好一些。
在某些考题上比不过小学生
智源为了开展此次测评工作,邀请北京海淀教委出了45套基础教育(K12)阶段的考试题,试题数量达到1400道。其中有一点令人意外,大模型对低年级试题的回答成绩并不好。
有一道小学3年级水平的词汇题,要求学生仿照例子将词汇归类,把答案写在对应类别的横线上。最终测评结果显示,只有一个大模型答对了一小部分。包括OpenAI旗下GPT-4在内的大模型,都没有答对这道题。
这道3年级词汇题的测评结果并不是个例。智源整体测评发现,在7年级至12年级学段里,大模型与人类之间的差异并不明显,答题成功率很高。但在3年级试题的测评中,面对这些对人类而言比较简单的题目,大模型回答正确率反而更低。
比如面对一道诗歌填空题,大模型并没有根据原有诗歌做出正确回答,反而自己造了一句诗。另外有一道古文题,题目要求学生从一段古文中挑选一段能体现古人宽容的语句,但大模型挑选的内容,恰恰是体现了古人不宽容的语句。
王仲远告诉,大模型回答低年级题目时差错率高,是因为低年级题目图片更多。这说明,当前大模型的多模态技术发展程度比不上语言模型技术。同时说明,人类在多模态认知这个领域非常独特,AI对人脑的机制还没有完全理解透彻。