专访阶跃星辰姜大昕:Scaling Law是通往AGI的必要非充分条件

伍洋宇2024-05-02 07:38

中国通用大模型领域如今已跑出了六家独角兽公司——其中只有一家,搜不到任何公开估值,甚至没有融资新闻,就已经被市场默认列入“独角兽”队伍。这家公司就是阶跃星辰。

喧嚣沸腾的“百模大战”中,阶跃星辰以近乎沉寂的状态低调了一年,直到今年3月才浮出水面。

其发布的Step系列大模型是一套完整的“组合拳”:Step-1千亿参数语言大模型、Step-1V千亿参数多模态大模型,以及Step-2万亿参数MoE(混合专家架构)语言大模型预览版。

Step-1V一经发布便登上了OpenCompass多模态大模型3月榜榜首,二三名分别是阿里的QWen-VL-Max以及谷歌的GeminiProVision,OpenAI的GPT-4V位列第四。

Step-2预览版则是国内大模型初创公司首次公开万亿参数MoE语言大模型。理论上而言,这是逼近GPT-4发布初始水平的关键节点。

不多言不多语,但一登台就炸场的姿态,大概足以形容阶跃星辰的行事风格。

在幕后掌控这家公司行为调性的人是姜大昕。2023年创业之前,姜大昕是微软全球副总裁、微软亚洲互联网工程(STCA)的首席科学家,主导过微软搜索引擎Bing,以及智能语音助手Cortana、微软云Azure、办公全家桶Microsoft 365等一系列微软当家产品的自然语言理解系统。

深厚的技术背景使其习惯于严谨和客观地表达。谈及技术细节,他会给出明确的判断:“如果大语言模型要上万亿参数,MoE架构几乎是必然选择。”

他信仰Scaling Law(规模法则),认为在肉眼可见的未来,至少还有十万亿和百万亿两个数量级,但并不排除脑神经科学领域有朝一日能够在Scaling Law和多模态之外找到通往AGI(通用人工智能)的可能。 

一些公司合作方会用“实在”来形容他。这种描述矛盾而统一,因为他既会扬言“我们的多模理解国内第一”,也会承认“还在追赶去年发布的GPT-4”。背后所依托的逻辑是他所掌握和相信的技术现实。

在微软16年,姜大昕说自己形成最坚不可摧的认知是开放心态和“growth mindset”(成长型思维)——这是老东家微软的文化之一,也是他决定创业的心境来源。 

他判断“上一代搜索已经做到头了”。从“Boosting Tree”(提升树)到神经网络兴起,从CNN(卷积神经网络)、RNN(循环神经网络)、LSTM(长短期记忆网络)再到BERT(谷歌团队提出的一种自然语言处理预训练技术),姜大昕曾把每一代技术都用进搜索,使其实现从“马车”到“汽车”的转变。

直到2022年ChatGPT横空出世,他意识到,这是从“地上跑”到“天上飞”的质变。

因此,如果你不知道对这家新出现的公司具体期待什么,不妨期待它会如何定义下一代搜索,毕竟它拥有传统搜索引擎时代最有话语权的团队之一。

阶跃星辰会如何用大模型来定义下一代搜索?又如何追上与GPT-4的差距?姜大昕给出了自己的答案。

以下为姜大昕采访实录(界面新闻略作编辑): 

技术只是窗口期,不是护城河

界面新闻:你们算是国内第一个公布万亿参数MoE大模型的公司,之前一直保持低调,现在希望在行业里树立一个什么样的认知?

姜大昕:去年国内开始提“百模大战”,但很多公司是针对行业或者应用场景发布了大模型,真正从头开始做通用大模型的满打满算十几二十家,相当于已经做完第一轮分化。

我们认为通用大模型还会走得更远,往后发展有两个维度:一个是Scaling Law,从千亿到万亿参数,甚至到百万亿;另外光做语言模型是不够的,要想达到所谓的通用人工智能,就要做多模态理解和生成的融合,首先要做一个多模态理解的模型。

沿着这两条路,公司发布了万亿参数语言大模型的预览版Step-2,以及多模态大模型Step-1V。这代表了我们在GPT-3.5之后两个很重要的观点,一个是模型要大,二是多模态理解和生成的统一是通往AGI的必经之路。

界面新闻:单从模型的角度,怎么理解你们与GPT-4之间的差距?比如Minimax刚刚发了abab 6.5,也是万亿参数MoE大模型,他们会展示各种开源测试集的结果比对。

姜大昕:这是个很有意思的问题。前段时间在迪拜的世界政府峰会上,OpenAI首席执行官Sam Altman有一个观点很出圈,我觉得很对。

他说GPT-5对比GPT-4,是各个维度都强了一圈。这句话字面意思是“我的通用能力变强了”,但反过来讲还有一个意思是,“我朝着某一个维度方向去打磨也可以很强”。通过牺牲一些维度去增强另一个维度,这个维度可以强过GPT-4。就好像一个大学生和一个学习了焊工、钳工的初中生相比,后者可以在某个维度上超过大学生。所以刷榜并不是特别科学,因为题都是公开的。 

有些说法甚至非常有误导性。比如说“全方位能力达到了GPT-4的90%”,听着很牛,但假设GPT-4在某个能力上是90分,你做到90%就是81分,看上去好像也不错。但反过来想,GPT-4的错误率是10,你的错误率是19,几乎是人家的两倍,在应用的时候体感肯定是不一样的,用户只会觉得你做对是应该的,但会记住你的错误比别人多了近一倍。

界面新闻:和GPT-4的通用能力对比,你们对Step-2下的结论是什么?

姜大昕:GPT-4是动态的,我们现在的模型也还在最后的打磨阶段,希望到今年上半年整个打磨完成以后,能够对标去年GPT-4刚出来的水平。

界面新闻:现在国内的通用大模型是不是还在集体追赶GPT-4刚刚发布的状态?

姜大昕:对。这是一个相对务实的目标,我们不会动不动就说我们超过GPT-4,没有这个必要去吸引眼球。因为你可以有各种办法在一些小维度上超过它,甚至分分钟就可以超过,但这有什么意义?

界面新闻:Step-2采用的MoE架构,现在也很受关注。这种架构响应速度、推理效率都更快更高,但也存在训练稳定性、通信成本等问题。阶跃是什么时候决定以及为什么决定采用这个架构?怎么去克服这个架构本身可能存在的一些问题?

姜大昕:想把模型参数扩大到万亿的话,MoE几乎是一个必选项。就像做科研或者做工程,很多决策就是各个维度之间的最佳平衡,MoE也是在性能、参数量、训练成本、推理成本这些维度权衡下的最佳选择。

至于说它要解决的很多挑战,我觉得这就是OpenAI的核心技术,我们要想继续往上攀登的话,这个问题迟早要解决。

我们自建机房是一个巨大的优势,因为可以有所有硬件的细节。我们是系统组、算法组从硬件开始就做一个联合的优化。 

界面新闻:商业模式上,你们是toB(企业)和toC(消费者)一起做吗?

姜大昕:不算,我们主力还是在toC。toB的话,我们不是一单一单接的典型打法,是只选择一些大行业。比如说和上海报业旗下的界面财联社成立一个合资公司,由这家公司去承接生意,我们提供算法和模型。 

界面新闻:如何看待C端产品的商业前景?很多人认为C端极易打价格战,那它能成立的、有健康现金流的商业形态会是什么样?

姜大昕:这一轮虽然技术上发生了很大的变革,但我觉得技术不是护城河,技术只能给你一个窗口期。在这个窗口期内,你一定要构建公司产品的护城河。

我觉得没有什么新鲜的,商业模式基于人的需求,而需求这么多年不会变。现在只是说技术变了,找到产品能够卖出的商业模式就完了。

永远记住年轻人比你更牛

界面新闻:有人说你们算是国内最后一家大模型公司,你怎么看?会不会觉得入局比较晚?

姜大昕:我觉得不晚,而且我也不认为我们一定是最后一家,可能哪一天又冒出来一家。

界面新闻:当初为什么选择在上海注册公司? 

姜大昕:上海对人工智能有一个总体生态上的布局,从芯片到通用大模型,再到各行各业的应用,规划得非常清楚。上海的环境也很适合创业,比如徐汇、滨江,有非常多的创业公司。 

界面新闻:在微软的16年,让你积淀下来最坚不可摧的认知和能力是什么?

姜大昕:开放的心态,还有就是微软有个“growth mindset”(成长型思维模式)。意思是不要被过去的一些认知所局限,空杯心态、仰望星空。

过去的知识也许可以帮你判断一件事情的价值,但也要多听取别人的意见,选择性吸收,最终是让自己不要活在过去。你要永远知道,年轻人比你更牛,这个事情在我们公司是非常非常正确的,年轻人也是最厉害的。

界面新闻:在大模型领域创业的人,有杨植麟这样带着“天才少年”标签的,有王小川这种有成功创业经验的,也有你这样在科技巨头统领重要业务线的人,你觉得这个行业这一代领军人物之间,最终拼的是什么?

姜大昕:个人有个人的特点,我觉得这对企业是个好处。每个企业会有自己独特的文化价值观,还有组织基因,有各自成功的路径。

界面新闻:这种价值观或者组织基因,可能会让公司在什么事情上变得特别不同或者有优势?

姜大昕: 它会影响到方方面面,这个东西讲起来很虚,但又很实在,因为会决定做事的方式。 

比如一些企业合作方听完我们的介绍以后,会用“实在”来形容我们。我就问,您说这话是一个褒义词还是个贬义词(笑)。对方的意思是,他走访了很多公司,基本上每家都会或多或少说比GPT-4做得好,只有到了我们这里,我说我们在追赶GPT-4,承认跟GPT-4之间还有差距。

界面新闻:阶跃现在有大概150人,团队规模的增长曲线是怎样的? 

姜大昕:我们一开始招人比较快,把训练初始版本模型的人给招起来了。中间有一段时间相对来说比较慢,产品还是在小步往前探索阶段,那段时间并没有进很多人。产品刚跑起来的时候,可能就10个人。后来到了下半年,我们才开始扩招产品和工程体系的同学,然后才有冒泡。

界面新闻:行业里像百川智能、Minimax等,大概都是两三百人的体量,你怎么理解大模型公司人才密度的问题? 

姜大昕:这个领域说人才密度这件事我是认可的。这里面涉及两件事,一个是平均人才密度,还有一个就是,一家公司里最顶尖的那几个人决定了大模型的高度,100个人未必干得过那10个人,所以系统、数据、算法这三个维度我们都要有最顶级的人才。

最近我非常高兴的事情是算法团队又壮大了一些。因为从GPT-3.5到GPT-4,一方面你要有算法能力,另外就是系统要跟上,但如果要探索我说的那条路径,从单模态到多模态,需要很多不同领域的算法人才。

我现在在各个方向都找到了顶尖的人才,这也是我“浮出”之后的好处。

界面新闻:每一个加入的人你都会自己亲自面试吗?

姜大昕:对于这些leader我会的,而且都不是面试,真的是聊天、吃饭,有的还聊了好几次,吃了好几次。 

界面新闻:感觉你在融资信息的发布上挺谨慎的,但其他家都宣传得很热闹。为什么阶跃不怎么去提融资的事情?

姜大昕:我觉得没有必要。我们最终的目标是把模型训出来,那我们知道自己的融资节奏和方式就好。

界面新闻:但如果有高融资或者高估值,应该也更容易在市场上建立头部印象?

姜大昕:现在的好处是,人工智能领域确实有一批投资人是非常懂的,他们知道这是一个长期且比较耗钱的项目,也愿意相信我们的技术实力。 

通往AGI之路,十万亿不是尽头

界面新闻:你所信仰的AGI可以怎样概括?

姜大昕:AGI目前确实没有一个准确的定义,我也不想给它一个(定义),只能非常概括地说,达到人的智能就叫AGI 。而且我觉得这里面最重要的一个字就是“G”(general),通用。

界面新闻:你给公司规划了“单模态-多模态-多模理解和生成的统一-世界模型-AGI”的路径,每个阶段要走多长时间是可估算的吗?

姜大昕:不好预测。就像我看到ChatGPT之前,都还会说自然语言处理这件事,常识和推理需要十年二十年来解决,结果一夜之间就解决了。所以有的科学突破可能在积累上早就发生了,但有点像大家说的“涌现”,只看到“砰”地一下上去了,是一种跳变。但这个朝着目标迈进的过程,只要没有达到那个点,它就是0。

界面新闻:阶跃对于明年有什么具体的目标?

姜大昕:朝着GPT-4.5/5去努力,一个是规模扩大到10万亿参数,第二个是从能力上,我希望明年对多模理解和生成的统一有突破,能够同时理解和生成。

整条线我们都看得很清楚了,包括我们处在什么阶段、什么是确定性的,接下来肯定是在现有的确定性基础上再往前走。 

界面新闻:达到万亿参数模型之后,推进Scaling Law最难的事情是什么? 

姜大昕:最难的不是一件,是四件事情,就是我们说的算力、系统、数据、算法。

界面新闻:感觉你是一个非常坚信Scaling Law的人,这个定律有到头的时候吗?

姜大昕:这是个很好的问题。在肉眼可见的未来,我觉得至少还有两个数量级。我们到年中应该才算真正攀上去万亿,那么10万亿是个确定性事件,一定会攀。

界面新闻:10万亿对应的是GPT-5?

姜大昕:不知道是GPT-4.5还是GPT-5,就看OpenAI下一个模型出来的是个什么。其实 GPT-4是2022年10月份就训完了,去年4月份发布是因为它后来打磨又用了6个月时间,跟我们现在状态差不多。

虽然OpenAI年初发布了Sora,但最新一代大模型到底叫GPT-4.5还是GPT-5,多大参数规模,都不知道。我们基于它的能力、路线,包括它用的卡做一个推测的话,至少是个10万亿级别。 

界面新闻:那第二个数量级就要到百万亿。

姜大昕:这里有一个参考,就是人脑的神经元连接是200万亿,但我觉得不是一个特别有效的参考,因为人和机器现在没有任何可直接对比的关系,可能只是给人一个目标。

界面新闻:除了这个路径之外,还存在别的可能弯道超车的技术路线吗?

姜大昕: 除了刚才的两条路线,还有第三条路径是解读人脑到底是怎么工作的,即脑神经科学。

现在所谓大脑神经网络和真正的神经网络之间,我觉得是一种很牵强附会的类比——把它的构造想象成神经元、树突、轴突这些东西,但人脑可能完全不是这么工作的。

但最近有一些有趣的发现,冥冥之中好像人脑的一些规律在我们最新的大模型设计当中得到了体现。比如人的智能来自大脑皮层,是一个简单结构的不断重复,正好对应了Transformer架构的某种特征。还有就是,它认为人的智能来自对世界的建模,叫作 reference framework,这个和我们现在把大量知识输入、压缩、对世界建模从而产生智能的工作,好像从逻辑上也对应了。

但从生理上看,人的神经元产生生物放电、化学递质这个过程到底是什么样的?我们现在训练一个初中生水平的智能,就要消耗这么多能源,人的大脑就两三斤,消耗能量也就这么一点,它是怎么做到的?这里面还蕴藏很多大自然的奥秘,实际上是可以帮你反哺。

你要么就是学习它,要么从它那里得到灵感去改进大模型,甚至说不定在某个时刻,机器人聪明到一定程度,会去看明白之后告诉你,或者默默地就把自己给修改了,那我就觉得很恐怖了(笑)。

界面新闻:你之前提到过“上一代搜索到头了”。那你对这个时代的搜索有什么初步定义吗?或者说它未来可能的形态是什么样,会取代谁?

姜大昕:是个很好的问题,我觉得它是分阶段不断往前演进的。

首先,它会让用户的搜索体验更好。上一代搜索引擎逼用户养成了一个习惯,就是只能拿关键字提问,因为假如问一个自然语言,用户笃定搜索引擎不懂。但是大模型出现以后,不仅可以让这件事自然语言化,还可以多轮(对话)。

大模型会先帮你把前几十个文档和网页全看了,然后总结一套信息给你,还能提供出处,从结果呈现上也比原来好很多,从单纯的信息检索变成了知识获取。所以(大模型时代的)搜索第一个阶段是,解决了用户提问的困难和看答案的效率。 

搜索本身其实不是一个端到端的任务,大多人搜索是为了完成一个工作或者任务。所以搜索将来怎么能够把外部搜索、本地搜索,还有工作环境的知识整合在一起,嵌入到一个端对端的工作流里面,我觉得可能是未来搜索的一个方向。

界面新闻:如果不考虑Google自己会进化这件事,现在的通用大模型其实都是要取代曾经的Google? 

姜大昕:在取代这件事情上,我觉得推演起来非常有意思。

很多人在思考,大模型出来以后,搜索引擎公司会产生一个什么样的变化?包括我们跃问在内的很多AI产品都是个聚合搜索,它是在现有搜索引擎的基础上,把Top 10或者Top 20的结果做了一个网页整合。 

所以我觉得Google等搜索引擎公司会长期存在。就你从一个Query(疑问)进来,到我从1万亿个网页当中,把Top 20的结果反馈给你,这件事情永远要存在。

至于是哪家公司我不知道,但这件事情不会消失,因为大模型没有能力在很短的时间内把1万亿网页全部看一遍,它只能做到把你给我的20个网页看一遍。

从商业模式来说,对于搜索引擎公司就非常tricky(棘手)——这种情况我是跟还是不跟?跟了,可能会损失广告收入,要不跟就得看着用户往别人那走。

所以它的一个解决方法可能是,在跟的同时秀广告,它有一段路要去探索这种商业模式是不是成立:你付费了我可以不给你广告,你不付费,对不起,你就得看广告。

界面新闻:前段时间行业里关于研发、应用、商业化等争议非常多,你看了这么多观点之后,有觉得和你的想法比较贴切的吗?

姜大昕:其实每个人都没有错,站在他们的角度,只是各自说了一个不同的事情,然后人为捏在一起之后,好像观点是很对立的,其实我觉得并不矛盾。

界面新闻:作为创业者,研发和应用之间你有什么倾向?

姜大昕:我们一直说模型和应用要同一个公司做。 

界面新闻:所以你觉得双轮驱动是成立的?

姜大昕:对。我们公司从第一天开始,就确定模型和应用都要做,因为模型需要应用作为牵引和数据的补充。当你具体到某个应用的时候一定要通用模型跟它深度绑定,应用才能做到极致。 

反过来也是一样,我不觉得一个光做应用的公司,没有一个模型跟它深度绑定的话,它能做到极致。

界面新闻:但这对创业公司会是一个巨大的消耗,也非常考验后期,比如创业者的融资能力。

姜大昕:同意,因为这一轮大模型创业,大家会跟芯片做类比,上来就是明牌重注这样的格局,没办法。 

界面新闻:对全球大模型行业的第一梯队和第二梯队有什么样的预测?

姜大昕:第一梯队现在就是OpenAI的GPT,Anthropic的Claude,还有Google的Gemini,每一家背后都是一朵云。 

经过一年的角逐以后,除非OpenAI马上放一个GPT-4.5/5把大家再震晕了,否则以他们当家的三款模型来说,水平差不了太多,至少GPT-4和Claude 3是,从Gemini Pro来看是接近了。

第二梯队我觉得就两家,x.AI的Grok和Meta的Llama,这两家确实钱多、卡多、人才多,但它们慢了,只能随时准备开源掀桌子。

我判断开源追不上闭源,除非闭源在走的时候出现了重大挫折,比如GPT-4.5/5发不出来,但我觉得是个小概率事件。闭源还是会一直往前走,而且势头不会太慢,至少走到10万亿甚至到百万亿,都会以这样的速度持续下去。 

界面新闻:对标全球的第一第二梯队,国内大模型的整体水平在哪里? 

姜大昕:第二梯队。国内进步很快,但是距离GPT-4,Claude 3还是有一定差距。除了模型本身还有认知上的差距。OpenAI是积累了很久。 

界面新闻:明年国内大模型大概会达到一个什么样的水平?

姜大昕:取决于两个因素,一个是它们(第一梯队)有多快,现在最大的变量就是OpenAI新的模型到底是个什么样子,这会影响明年的格局。另一个要看国内有几家能在年底前达到GPT-4。

转载来源:界面新闻 作者:伍洋宇

版权与免责:以上作品(包括文、图、音视频)版权归发布者【伍洋宇】所有。本App为发布者提供信息发布平台服务,不代表经观的观点和构成投资等建议
Baidu
map