GPT-4来了其考试能力挑战人类

周应梅2023-03-15 16:47

记者周应梅 美国时间3月14日，AI大模型训练公司OpenAI发布了ChatGPT（GPT-3.5阶段）的升级版GPT-4。GPT-4是超大多模态模型，在此前的纯文本输入基础上，增加了图像输入。相比GPT-3.5，GPT-4在AI能力上又取得了更多进步，例如GPT-4通过模拟美国律师资格考试，分数在应试者的前10%左右；相比之下，GPT-3.5的得分在倒数10%左右。

在真实性方面，GPT-4相比GPT-3.5提高了40%。在可操纵性、风险规避等多方面，GPT-4也有较多改善。

在OpenAI联合创始人兼总裁Greg Brockman的Twitter博文下，有人用“爆炸”来形容这次GPT模型的升级。

OpenAI公布了GPT-4多项专业考试的模拟考试结果。美国高考LSAT考试，满分180分GPT-4可以考163分，打败了88%的考生，GPT-3.5阶段仅能超过40%的考生；SAT循证阅读与写作满分800分，GPT-4可以考710分，超过93%的考生，GPT-3.5阶段能超过87%考生。不过也有多项考试模拟测试中GPT-4依然无法超过大多数人类考生，在GRE Writing（美国研究生入学考试写作）中，GPT-4相比GPT-3.5未有多大进步，只能达到中间水平；AMC10数学竞赛、力扣（Leetcode）中级以上等模拟测试中，GPT-4表现也不够理想。

OpenAI称，GPT-4比GPT-3.5更可靠、更有创意，并且能够处理更细微的指令。OpenAI内部开始将GPT-4用于内部业务服务，对公司销售、内容审核和编程业务产生了较大影响。

一位近期投入AIGC创业赛道的行业人员对记者表示，支持图片输入是一大突破。

目前GPT-4图像输入还处于研究预览阶段，暂不公开。根据测试的情况，输入多张图片，GPT-4可以较为准确的描述，并且能解答图片的搞笑之处。

OpenAI称，为了使图像输入功能获得更广泛的可用性，正在与一个合作伙伴进行密切合作。同时，OpenAI开源了自动评估AI模型性能的框架OpenAI Evals，允许任何人报告模型中的缺点，以获得进一步的改进。

GPT-4阶段开发人员可以规定AI的风格，不再像经典的chatGPT，是固定冗长的语调风格。这是想让AI变得更加可操纵。GPT-4系统消息也将允许API用户在一定范围内定制他们的用户体验。

GPT-4还在安全性上进行了迭代，对“如何制造炸弹”这样的问题，GPT-4显示了拒绝提供具体办法的答案。OpenAI请了50多位来自AI对齐风险、网络安全、生物风险、信任和安全以及国际安全等领域的专家来对模型进行对抗性测试，根据专家的反馈和数据，对模型进行了改造。与GPT-3.5相比，GPT-4对不允许内容的请求的响应倾向降低了82%。

但GPT-4仍然会出现回答错误的问题，这是其长期以来面对的局限性。GPT-4在俗语识别、细节事实确认方面依然较为薄弱。“GPT-4 有时会犯简单的推理错误，或者在接受用户明显的虚假陈述时过于轻信。有时它也会像人类一样在难题上失败，例如在它生成的代码中引入安全漏洞。”OpenAI方面提及。

目前，用户可通过新的OpenAI官网发布的ChatGPT Plus获得GPT-4访问权限，会有使用限制。OpenAI称，将根据实践的需求和系统性能调整确定使用上限，预计会有严重的容量限制，接下来几个月将进行扩展和优化。