陈沛/文 OpenAI在2024年春季发布会上展示了GPT-4o的多语音输入和实时视觉交互效果,令人印象深刻。在春季发布会后,OpenAI正抓紧在ChatGPT中推出GPT-4o语音模式Alpha预览版,新版GPT-4o模型背后的模态融合已成为AI发展前沿,各家机构正力争实现突破。
GPT-4o模型背后的模态融合训练变化
按照OpenAI官方解释,之前使用GPT-4的语音模式输出之所以会产生数秒延迟,是因为整个过程需要经历将输入语音转换成文本、GPT-4模型处理并输出文本、将生成文本转换成语音并输出等三个步骤。
这么多步骤不仅会导致延迟,还失去了很多上下文信息,例如识别说话者语气、分析多语音输入、消除背景噪声等。而且,模型也难以输出带有自然语气的声音。
而新版GPT-4o则是将文本、声音、视觉等多模态数据融合,端到端重新训练了一个新模型,直接使用语音转语音的方式来实现实时对话。
Meta紧跟发布混合模态早期融合基础模型
或许是看到GPT-4o模态融合效果大受欢迎,Meta随后不久便发布了Chameleon模型的研究论文,声称是在统一模型架构上对文本、图像等多模态的数据进行了早期融合训练。
Meta专门强调了早期融合,表明这个Chameleon模型是在早期训练阶段就将文本、图像、代码等多模态数据进行了统一转换,各种模态都被映射到一个共享的表征空间。
可以看出,这种融合模态的训练方法与GPT-4o类似,都是使用统一模型架构从头开始端到端训练,从而实现融合模态的无缝处理、生成以及推理。
更高层面的研究也印证了模态融合方向
长期研究AI前沿方向的前OpenAI首席科学家Ilya Sutskever最近也有新的关注。当年正是他识别出了注意力机制和Transformer研究论文在大语言模型上的应用潜力,此后一步步打造出GPT系列模型。
不过他自去年底OpenAI董事会动荡事件后再无发声,并在春季发布会后官宣离开了OpenAI。随后离开的还有他所在的超级对齐团队联合负责人和相关成员。
就在Ilya官宣离开OpenAI后,他首个公开点赞的研究论文立即引发业内关注。这篇研究论文是MIT提出的《柏拉图式表征假说》,核心思想是跨模态神经网络模型在处理不同模态数据和任务时,表征方式正在趋向于收敛,而且能在现有的语言模型和视觉模型上得到验证。因此,未来可能出现类似柏拉图理想现实的一个共享统计模型。
这就表明,今天的大语言模型、文生图模型、文生视频模型等处理某些模态的模型,都只是在现实世界的表征空间中找到了局部更优解。而要找到未来统一模型的全局最优解,或许需要的是融合模态模型。
随着融合模态已经成为前沿AI新风向,一系列变化还将接踵而至。不仅在模型输入层、端到端训练损失函数等方面将会出现创新的空间,而且在现有分模态对照标记数据集结构方面,甚至还会出现全新的变化。