11月14日,阿里巴巴智能信息事业群旗下夸克团队对外发布了基于Transformer架构自主研发的千亿参数级夸克大模型。
据夸克团队当时介绍,夸克大模型是一个通用大模型。但这也让业内产生疑问,阿里云此前已经发布了通义千问大模型,并且包括天猫、钉钉等在内的诸多阿里系业务均表示会接入,夸克为何另辟蹊径?
但很快,在11月17日的财报电话会议中,阿里巴巴集团CEO吴泳铭就给出了答案。吴泳铭表示,阿里巴巴面向未来将有三个重要优先级方向,分别是技术驱动的互联网平台业务、AI驱动的科技业务和全球化的商业网络。
在此背景下,阿里也将持续投入、孵化面向未来的战略级创新业务。吴泳铭解释称,战略级创新业务要具备足够巨大的市场空间,具备独特的市场定位,符合用户需求趋势和集团“AI驱动”战略。以此为标准,阿里也确认了第一批战略级创新业务——1688、闲鱼、钉钉、夸克。
谈及夸克,吴泳铭说道,因为AI时代的到来,夸克获得前所未有的想象力。“每个人和企业都将具备个性化的智能助理,大模型时代,面向年轻人,夸克有巨大机会创造出革新性搜索产品。”
而且这些战略级创新业务,在组织上将作为独立子公司运营,业务上也将打破以往在阿里集团内的定位限制。所以,夸克打造自己的通用大模型,也变得不难解释,尤其是基于搜索业务,夸克很早就开始了大模型研究,也具备了开发大模型的天然优势。
11月22日,夸克技术负责人蒋冠军在接受21世纪经济报道等媒体采访时指出,简单来说,夸克是一个集合搜、用、存于一体的智能信息产品,所以夸克大模型的目标,也是对搜、用、存进行智能化升级。
夸克App于2018年推出。蒋冠军称,最初做夸克的时候,就想把它做成一个用户在工作及生活中的智能助手,所以那时也尝试了很多智能技术。
比如2019年左右,夸克曾在产品中上线一个对话式应用,叫“夸克宝宝”。该产品的形态和现在的对话机器人类似,但是由于当时的智能技术和水平有限,产品也没有做起来。
但对于AI技术的探索,夸克始终没有停。去年,ChatGPT的发布,让围绕自然语言方向做了多年技术工作的蒋冠军十分震撼,并认为这是一种“代际的差异”。
不过后来他发现,这种差异并没有那么大。“为什么ChatGPT发布后,国内有很多厂商都在很短时间内就发布了中文大模型,是因为大家之前在人工智能领域都做了很多工作,只不过没有用OpenAI这样的思路去做,所以OpenAI给整个行业指出了一个方向。”蒋冠军表示。
也是从那时,夸克就开始了大模型开发。蒋冠军坦言,在很早的时候,夸克大模型的能力水平就足以比肩市面上的一些产品,之所以迟迟没有发布,原因在于夸克大模型的定位是面向C端打造智能助手,所以更希望在产品侧有具体的应用和体验后再发布,而现在,夸克已经具备在部分场景里提供服务的能力,并有产品准备上线了。
与其他大模型产品相比,蒋冠军认为,夸克大模型的研发过程,核心是发挥了夸克在搜索引擎和数据上的优势,而这是其他非搜索引擎厂商不具备的。
据其介绍,夸克搜索数据库的网页总量是千亿级别,在这千亿级别的网页里,夸克筛选出几亿个质量特别高的网页做训练。“如果不是做搜索引擎的厂商,要完成这项任务,代价将非常高。”
另外,蒋冠军指出,基于搜索技术能力的积累,也让夸克大模型在解决模型幻觉问题时更有优势。“搜索引擎在处理大规模的网页数据时,本身就需要一套工程体系,去做对齐、去重、分析等工作,这些能力与大模型所需的能力非常匹配。”
数据显示,夸克大模型在科普问答方面的纯模型幻觉率是25%,这远低于行业水平。在通用知识方面,夸克大模型的错误率为15%以下,而在医疗健康领域,夸克大模型的错误率可以降到5%以下。
此外,在如何持续提升模型准确性方面,蒋冠军也分享了夸克采用的几个有效手段,具体包括模型预训练、人类对齐、增加模型参数规模、知识增强等。
其中关于“人类对齐”,蒋冠军表示,夸克做大模型过程可以分为两个阶段,第一个阶段做了一个版本,但效果不是很好,所以第二阶段立刻组建了专业团队,在搜索、教育、医疗等垂直领域中进行大模型的预训练与精调。
所以,蒋冠军也做出判断,“我相信半年到一年内,其他大模型公司也会去找各行各业有从业经验的人,来给他们提供和生产数据。”
来源:21世纪经济报道 作者:白杨