记者 沈怡然 8月以来,高通公司一边与手机客户紧密研发,另一边与微软、谷歌、Meta等大厂合作。作为全球端侧芯片技术领导者,高通和伙伴们尝试将AI大模型从主流的计算机下沉到手机、汽车、头显设备,以发挥更多的商业价值。
基于对海量计算和存储的需求,大模型在先期的研发和训练中,只能部署到云端,这也是为何英伟达能在芯片低谷中逆势爆发。在高通中国区研发负责人徐晧看来,将大模型从云到端部署,尤其进入手机,是必然的演进路线。进入高通研发团队20年来,徐晧领导了3G至5G演进中的多个芯片研究项目,还负责高通在智能终端侧的AI算法研究。
如今,徐晧的重要任务是让大模型进入手机,尽管这一天还没到来,他紧凑的日程表已经显现出,这不是纸上谈兵,AI、芯片、手机企业正看好该方向,并通力合作,把大模型“缩小”,再做硬件上的改进,目前尚有一些技术瓶颈,徐晧预计,高通年底可实现在终端运行百亿级参数的大模型。
当前消费电子仍然疲软,高通有信心认为大模型会给市场带来春天,甚至能在5G和6G之间掀起新的一轮手机周期,尤其在中国巨大的消费市场,大模型会开启手机个人助理、办公助手、甚至更多类似“妙鸭相机APP”——一款可以利用人工智能技术生成个人照片的应用——那样的想象空间。从企业竞争的角度看,将更强的AI能力集成到SoC(系统级芯片),也有助于高通在更多消费和工业等新市场中取得技术优势。
高通的确完成了从0到1的尝试——今年2月在安卓手机上跑通了Stable Diffusion,手机没有联网,整个文生图的过程完全在终端运行。徐晧表示,“这仅仅证明,在没有任何云端帮助的情况下,大模型在手机上是可行的,真正大规模地部署仍需要时间”。
在徐晧看来,一些软硬件及兼容适配的问题有待解决,同时,演进的路径是,先训练好大模型,再谈如何部署到设备端并运行大模型,在终端推理(可理解为执行任务)的需求比在云端训练的需求来的要晚,爆发未必会立即显现。但趋势是可见的,混合AI架构作为未来AI的发展方向,AI也会从云侧扩展到端侧。
以下内容根据专访整理:
:大模型进入手机端会是怎样的应用场景?
徐晧:率先进入手机的会是ChatGPT这类大语言模型,相比过去的语音助理应用,只能处理简单的信息,比如查询天气、股市、讲笑话等,大语言模型可以回答相对抽象、复杂的问题,尤其通过对话方式来有针对性地解决问题。
当用户提出“请根据我在海南4天的旅行日程预定酒店”的需求,AI大模型会在理解需求的基础上,提供解决方案,这不同于关键词检索这类简单的任务,大语言模型还能进一步总结归纳,综合考虑酒店价格、地理位置等因素,分析得出方案。如果用户反馈酒店价格过于昂贵,它还能进一步提供另一个方案,可以像“个人助手”一样和用户进行互动。
另外,也有多模态的应用,多个功能的大模型集成到一起,比如根据需求生成计算机代码,解决数学问题,通过各种类型的考试等等。
:大语言模型在手机上究竟怎么发挥价值,业界还没有一个定论?
徐晧:是的,大模型本身也在不断演进,届时到底哪个大语言模型更流行或者更有用,也要看具体的应用场景。有可能是生成语言来回答问题、帮助用户写PPT、写文档、写代码、识别语言等等。可能是一个通用大模型处理所有问题,或是每一类功能交由更小的模型去做。
:和上一波AI进入手机生成的内容截然不同?
徐晧:此前AI为手机带来了照相背景虚化、美颜、指纹识别、人脸识别等功能,这些都是具象的、相对简单的、点对点的。在大模型进入手机后,这些简单算法所生成的内容也将继续存在,不需要大模型的支持。
:大模型进入终端是一个必然过程吗,它的演进过程是怎样的?
徐晧:大模型进入终端是普及的必然过程,对大多数用户或企业来说,能够普及的、有意义的应用还是在终端。就像曾经银河系列巨型计算机,可以算出非常复杂的太空飞行轨迹,但真正对普通民众有意义的还是个人电脑。大型模型经过训练、微调最终会被部署到终端的应用程序中,进入手机、汽车、电脑,VR/XR头显设备,这才能被消费者真正体验到,同理,企业用户也可以将大模型部署在机器人,或者监控摄像头等物联网设备中,以完成更多业务操作和生产任务。
:所以,大模型的部署也要从云端到终端去演进?
徐晧:是的,准确地说是从云到端、并达到一个云端协同的状态。
:具体谈谈高通对这个过程的考虑?
徐晧:毫无争议地是,初期ChatGPT等大模型的训练是在云端进行的,大语言模型的参数众多,甚至达到百亿或千亿级,训练时需要众多GPU提供算力,只有云端能提供这样的条件。
而一旦大模型训练完成,进入到推理(可理解为执行任务)阶段,企业就会对成本和安全有更多考虑。以大语言模型为例,它的搜索成本比简单搜索要高10倍,当有大量用户涌入进行搜索时,成本将节节攀升。所以,仅在云端推理并不划算,企业要支付数据中心基础设施的各项成本,包括硬件、场地、能耗、运营、额外带宽和网络传输方面。相比之下,部署在终端只需要支付硬件上的成本。此时,有些个性化的问题相对简单,本不用调用大量参数进行计算的,这类问题就可以在手机侧完成推理。
:仅仅是为了节省成本吗?
徐晧:还有隐私安全的考虑。比如,在终端侧完成查询路线的操作时,用户可以避免将自己的目的地暴露;当用户在处理自己的图像或视频时,也无须将图像或视频上传至云端,从而避免别人盗用人脸信息的风险,也可以更好地保护用户隐私。
:这就是云端和终端的协同部署?
徐晧:是的,我们也称为混合AI,端侧AI更快速、个性化和保护隐私,云侧AI更支持大规模运算和海量数据,各有优点。实际上,如果一个模型或者一项任务,需要消耗大量的时间、算力和数据,就可以把它放到云端去处理,完成后把答案回传就可以了。但如果这个问题相对简单,能够在手机上处理,就不需要传到云端了。
大部分的情况是,终端侧会有一个判断,即某个问题能否在本地处理,是否需要上传至云端。需要上传的才会传至云端,不需要的就在终端侧处理了。
:目前能部署到终端的大模型是怎样的?
徐晧:现阶段来看,是规模相对小的通用大模型和垂直大模型。我们的目标分界线是,十亿以下到百亿以下参数规模的模型在终端处理,例如参数规模较小的Stable Diffusion可以在终端侧处理。
:这也是很多厂商在努力把大模型“做小”的原因?
徐晧:“做小”是一个重要工作,企业要对大模型作出一系列的简化和优化,而非将其原封不动地搬到手机上。去年11月ChatGPT发布,催生了人们的兴趣和特别多大语言模型的开发。但是,大语言模型有很多的分支,每个分支可能还有它自己的缩减版。比如LLaMA模型有70亿参数的版本。
:现在很多厂商在开发多模态,规模比单模态要大,是不是很难进入手机?
徐晧:一般来说,处理各种模态的选择越多,模型就会越大。所谓的多模态就是语音、文字、图片、录像等不同模态信息的综合处理应用,可以用于处理数学、法律、医学等领域的问题。业界也在考虑能否将这些大模型压缩,或者分割成更小的模型,让它们能够更容易地做事。比如新闻工作者关心的可能是稿件,程序员关心能否让模型帮忙写代码。如果每次只用一个功能,就可以根据那种功能来微调它的模型。大语言模型在云端就像一个巨型的大脑,但我们在电脑上真正能用到的,可能不会是有1000亿参数的模型,而是100亿参数的小模型。
:高通是全球首个在安卓手机上跑通了Stable Diffusion的企业,能不能解释这个DEMO的意义?
徐晧:在手机上,在没有任何云端的帮助的情况下,这个大模型是可行的。至少从0到1让大规模AI模型进入手机终端,证明了下一步AI在端侧有很好的应用机会和发展空间。
这其中涉及到大量的工作,因为如此大的一个模型要搬到手机里运行,大多数人认为是不大可行的,但它运行的速度也很快,基本上每十几秒钟就能输出结果。
:大模型进入终端,尤其是手机,给产业链带来的影响很大吗?
徐晧:AI可以推动手机和其他终端形式的全面升级,芯片是尤其需要升级的部分。比如说以前大家对手机的定位就是打电话,所以当时的芯片就相对简单;后来因为数据的应用,芯片开始变得复杂;再后来因为引入了小模型的AI算法,以及深度学习的算法,芯片就变得更复杂了一点;直到现在,我们要支持大模型,就需要使用处理能力更强的芯片。
:具体需要怎样的芯片呢?
徐晧:把大模型运行在手机上进行推理,意味着手机的内存要变大,算力也要增强,这对手机芯片的要求是更高的。具体来说,高通有三点考虑,第一,让手机芯片功耗更小、运算能力更强;第二,改进过去的AI算法,从算法的角度来提高运算效率;第三,采用一些软件工具。现在的硬件、软件和算法结合得都比较紧密,在硬件上做任何事情都需要软件的支持,所以我们希望提供全栈的AI优化,包括软件的编译、模型的优化,与整个生态系统的适配,比如芯片要与手机厂家适配,让客户把我们的芯片用得更好,而我们也能支持各种操作系统,以保证和生态的兼容。
:是 CPU、GPU、NPU等全方位的更新换代,还是只升级AI相关的专用芯片?
徐晧:不同部件更新换代的需求是不一样的。以高通为例,我们的AI引擎是由多个硬件和软件组件构成的一个整体,其中包含了高通Hexagon处理器、Adreno GPU、Kryo CPU和传感器中枢。目前我们团队准备将这些能力集成在一起,提供给手机和更多终端客户使用。
:同时服务很多手机客户,是否也要支持客户在大模型上的差异化设计?
徐晧:我们在与手机厂商的合作中了解到,手机品牌为实现差异化,在大模型的部署和设计上有所不同。所以,我们的模式是,提供一个统一的AI平台,硬件、软件都有,让他们自行适配自己的大模型,拥有较大的优化设计的空间。比如同样基于高通提供的芯片,不同的手机厂商推出了拥有不同功能侧重点的手机。AI同理,在大模型方面,高通与多家手机客户紧密合作,但最终客户的呈现结果会有很大差别,开发出的应用程序和用户体验完全不同。
:短期看,芯片的升级无疑会增加研发成本。这是否会让新一代手机成本上升?
徐晧:目前我认为最关键的是找到使用大模型的刚性需求。虽然很难准确评估其价值,但当人们认为一项技术极具实用性的时候,那么就会愿意为之投入,将其应用于实际。我认为这是最为重要的。
:对于芯片厂商,支持大模型是否像当年支持5G一样面临复杂的技术挑战?
徐晧:5G和AI还有所不同。此前AI应用已经对手机的性能有了很大提升。过去手机中已经运用简单的AI算法,用于智能识别、美颜、背景虚化等功能。如今,大语言模型刚开始流行,我们就进行了全球首个运行在安卓手机上的 Stable Diffusion 终端侧演示,是因为我们在终端侧AI有多年的积累。从技术上说,5G的复杂度在于基带的算法,更多的是对通信芯片的影响;而AI更多的是对算力和整个AI的加速器的影响,二者涉及不同领域的升级。
:手机之外,在汽车、头显、物联网等设备上支持大模型,高通是否也在尝试?
徐晧:高通在这些终端形式上都有持续的研发,一些终端客户显示出了对大模型的需求,但每一个终端的形式和需求不一样。
:未来,很多智能终端仍然会延续过去的AI算法,也就是传统的小模型吗?
徐晧:这取决于用户的需求,AI存在诸多算法,大模型只是其中之一,仅仅作为一个工具。从工程的角度来看,对于简单的任务,最好的方法是使用最简单的工具。就像要将一个钉子敲入时,使用锤子是最合适的选择。大模型可以类比为电钻或大型联合收割机,但并非所有的事情都需要它来完成,终端侧的需求有可能是其他一系列的AI算法。
:有了大模型,原来的小模型并不是完全没有用武之地?
徐晧:很多场景小模型就能胜任。例如,应对让“小度”响应用户的召唤这种需求,就只需要一种非常低功耗的算法,调用大模型并没有意义,因为只需实时识别出“小度小度”这一词汇即可。未来,我们的客户会将大模型和传统小模型结合使用,它们就像一个工具包中的各种不同工具,无法简单地认为哪个更好,因为应用的目标不同。
京公网安备 11010802028547号