不用GPU也能训练大模型？这家AI初创企业首推非Attention机制大模型

张洋洋2024-01-31 10:15

在Transformer占大模型架构主流的背景下，国内一家AI初创企业正在试图撼动前者的主导地位。

近期，岩山科技旗下的AI初创公司岩芯数智发布了国内首个非Attention机制的大模型Yan，这是业内少有的非Transformer架构大模型。

Transformer是一种基于注意力机制的神经网络架构，也是当今自然语言处理领域的主流模型架构，它可以处理序列数据，提高翻译、识别等任务的效果。

目前，主流的大模型系列有三个：OpenAI的GPT系列、Meta的LLaMa系列、Google的PaLM系列。国内的大模型基本都延续了这三个系列，或是它们的一个子版本演变而来。

而上述三个系列都是基于Transformer架构衍生而来，成为大模型的支柱。

岩芯数智CEO刘凡平在接受《科创板日报》采访时表示，Yan是一个通用大语言模型，采用的是公司自研的“Yan架构”，拥有相较于同等参数Transformer的7倍训练效率、5倍推理吞吐、3倍记忆能力，同时支持CPU无损运行、低幻觉表达、100%支持私有化应用。

之所以要另辟蹊径，刘凡平称，主要是标准的Transformer架构模型，算力消耗，训练成本太高，交付成本也高，成本难以覆盖客户的付费，不少中小型企业望而却步，“这种情况下，如果一直做下去，我们做一单亏一单”。

面临算力耗费高、数据需求大等问题，因此岩芯数智从技术上放弃了Transformer架构和Attention机制。

对于Yan模型的落地周期和成本，刘凡平告诉记者，一个是缩短和客户的沟通时间、减少客户的理解成本，一般需求阶段够会在1-2个月，通过Yan架构，1个月以内已经可以出为客户私有化模型；另一方面，项目成本会降低，例如300万合同的项目可以降低到260万左右，但是利润不一定是下降了。

就业内共识而言，大模型竞赛已经从“卷参数”的时代过渡到了“卷应用”的阶段，行业对于通用大模型的需求亟待解决，故而许多大模型会通过剪枝、压缩等主流技术手段来实现在设备上的运行。

岩芯数智董事长陈代千在接受《科创板日报》采访时表示，之后会做到训推一体，希望Yan能够在CPU甚至在手机芯片上都能做训练，做推理，能在端侧设备上做一些私有化的部署。

刘凡平还透露，岩芯数智第四代大模型Y2.0已经在路上，这是一个全模态的大模型架构，目标是要全面打通感知、认知、决策与行动，构建通用人工智能的智能循环，期望未来能做一个通用人工智能操作系统。

来源：科创板日报记者：张洋洋

版权与免责：以上作品（包括文、图、音视频）版权归发布者【张洋洋】所有。本App为发布者提供信息发布平台服务，不代表经观的观点和构成投资等建议

热新闻

总编对话｜从中国走向世界——对话松下电器中国东北亚公司总裁CEO木下步

聚焦主业提升品牌：恒安集团接班人的长期主义理想

希捷科技全球执行副总裁暨首席商务官郑万成：未来五年，中国将成为全球生成数据最多的市场