记者 黄一帆 随着大模型的爆火,传统的Transformer架构同时展现出计算复杂度高、成本压力大等问题,国际上已有Mamba、RWKV等非Transformer架构大模型引起关注,国内也诞生了基于新架构下的大模型。
1月24日,岩山科技(002195.SZ)旗下岩芯数智发布自研大模型“Yan模型”,打出的标签是“非Transformer架构”下的通用自然语言大模型。
岩山科技告诉记者,目前主流的大模型系列有三个:OpenAI的GPT系列、Meta的LLaMa系列、Google的PaLM系列。这三个系列都是基于Transformer架构衍生而来。国内的大模型基本延续了这三个系列,或是它们的一个子版本演变而来。
那么,在Transformer架构已成为人工智能领域主流架构的情况下,为什么岩芯数智还要另辟蹊径,转而构建非Transformer架构的大模型呢?
岩芯数智CEO刘凡平告诉记者,“Transformer架构的主要问题在于训练成本太高,交付成本也高,成本难以覆盖客户的付费,需要降低边际成本”。
刘凡平表示,在对Transformer模型不断地调研和改进过程中,公司意识到了重新设计大模型的必要性。“我们从早期的基于Transformer架构、改进Transformer架构,到放弃Transformer架构,这是一个漫长的过程”。
“Yan团队在三年前开始布局、落地非Transformer架构相关的事情。在这个过程中,行业也慢慢了解到Transformer架构机制有一些共性的缺陷,所以大家都会去研究有没有其他的算法去优化,甚至替代这个结构。”岩山科技常务副总经理、岩芯数智董事长陈代千表示,“我们基于此前的实践,确信非Transformer的路线是可行的”。
岩山科技告诉记者,岩芯数智推出的大模型在效率上,相较同等参数Transformer,拥有7倍训练效率、5倍推理吞吐和3倍记忆能力。
据了解,此次岩芯数智推出的是Yan1.0大模型,目前正在做Yan2.0版本。
刘凡平表示,在推出Yan1.0后,“今年会在商业化上面去工作,我们会和合作伙伴去共同推进一些项目建设”。
对于Yan2.0产品,陈代千表示,“它肯定不仅仅是现在以语言输入、文本输出等形式,它应该是比如计算机视觉、视频甚至数字信号等全模态的内容都可以输入,然后我的模型也能够以各种形态,比如说以文字吐出、语音合成或者视频、信号处理的方式吐回这个结果。我们想做的Yan 2.0,其实就是往这个方向走,做一个全模态的实时人机交互系统”。