“日日新”大模型体系入局 商汤想提供一个大模型的“超市”

钱玉娟2023-04-11 10:28

记者 钱玉娟  4月10日,商汤科技董事长兼CEO徐立对外宣布,公司在“大模型+大算力”的战略下,通过AI大装置SenseCore打造出了AGI(通用人工智能)实现的基础设施——一个大模型体系。该体系具备自然语言处理、内容生成、自动化数据标注、自定义模型训练等多种大模型及能力,被命名为“日日新SenseNova(下文简称:日日新)”。

“苟日新、日日新、又日新。”徐立分享了命名背后的寓意,他希望在模型的迭代速度及处理问题的能力上,商汤可以“日日更新”,“不断解锁AGI的更多可能”。

在商汤科技联合创始人、首席科学家王晓刚看来,商汤的AGI催生了“新的研究范式”,即基于一个强大的多模态基模型,通过强化学习和人类反馈,不断解锁基模型新的能力,从而更高效地解决海量的开放式任务。

据介绍,在“日日新”大模型体系下,商汤创造出了一系列生成式AI模型及应用,诸如AI文生图创作、2D/3D数字人生成、大场景/小物体生成等。

大模型的“超市”

自ChatGPT推出以来,人们对自然语言大模型的关注度倍增,作为人机沟通的关键手段,自然语言也成为国内一众科技互联网公司开发大模型的重要方向,商汤也不例外。

在“日日新”大模型体系下,商汤研发了一个名为“商量SenseChat”的语言大模型,通过千亿级参数等大量数据训练,充分考虑中文语境,现场演示出了其对中文文本的理解和处理。

记者了解到,“商量SenseChat”还具有编写和调试代码、提供个性化医疗建议以及从复杂文档中提取和概括信息的应用体验,商汤概括这一语言大模型可充当编程、健康咨询以及PDF文件阅读等场景下的“助手”角色。

不只是语言大模型,“日日新”还为政企客户提供了API接口,既包括图片生成,自然语言生成,视觉感知通用任务与自动化数据标注等服务,还可以提供大模型并行训练和模型增量训练服务,便于客户在大模型基础上进行自身垂直领域、行业的自定义模型开发等。

技术创新能力,往往是内生外化的。商汤基于“日日新”大模型体系中的基于视觉大模型,帮助自身提升了在智能驾驶领域中,对环境、行为及动机的解码能力;它还会面向行业开发者开放大量预训练模型及AI开发工具链,以此帮助客户提升开发效率等。

在徐立的规划里,商汤在推出“日日新”大模型体系后,便为上下游提供了一个大模型的“超市”,其中有数据、模型训练以及部署相关。

“商汤已建立了全栈的大模型研发体系,并已在多个行业场景中落地。”王晓刚觉得,从场景的多样性,任务的复杂度以及数据的丰富度等多个维度看,都反映出商汤大模型的能力。

这种“既要有,还得全,最后还能对外供给”的能力,在深耕人工智能产业的量子位联合创始人李根看来,“这种能力不是谁都有的。”

需要提及的是,商汤早自2018年左右就洞察了大模型趋势,也是中国较早押注进行相关规划的公司。但“模型太大、参数太多、训练成本太高。”李根告诉记者,商汤被迫走上了一条自建算力中心、自己造芯片的道路,由此摸索出的是一种提供模型与算力的商业模式,即“从提供掘金工具,到卖水卖服务。”

大模型的“超市”,当商汤将这个目标定位打出来,陈根只觉得,不过是当下时间点将大模型体系推到了台前,“积累的工作,商汤早在之前就完成了。”

入局底气何在?

徐立指出,“在AI大模型时代,数据、算法和算力这三要素也在经历新的演变。”

首先,大模型参数量将以指数级的速率提升,而数据量随着多模态的引入也将大规模增长,这也必然会导致对算力需求的剧增。

正因当前业界训练大模型对大算力的需求旺盛,但真正好用的基础设施又是稀缺的。商汤则历时五年,不仅建设了AI大装置SenseCore,还基于大装置的能力,构建起了计算机视觉、自然语言处理、AI内容生成、多模态、决策智能等多个领域的大模型。

一组数据显示,商汤的AI大装置上共有27000块的GPU芯片卡,可以输出5.0 exaFLOPS的总算力,是亚洲目前最大的智能计算平台之一。基于此,商汤实现“大模型+大算力”的融合创新研发体系。

记者采访了《ChatGPT:读懂人工智能新纪元》一书作者、前沿科技领域作家陈根,他总结认为,商汤目前阶段有两大优势,一是它没有被制裁前,在算力层面比较领先,但“这种领先只能是相较同样被制裁环境下的大厂有领先性,不代表明天和后天仍占优势。”

另外,商汤从人工智能技术研发与理论研究层面来讲,“它拥有华人领域比较优秀且庞大的人工智能专家团队。”

在陈根看来,入局大模型,比拼的不仅仅是模型能力,还有模型的调参优化、数据训练、算力支持等多维度能力的考验。他以谷歌为例,同样拥有算力、数据、模型三方面优势,“但在模型调参优化上没能突破,最终挑战OpenAI也失败了。”

陈根指出,大模型的技术体系不难,甚至是公开的,有人工智能技术团队的企业都可以快速搭出来,但能不能用却是另一回事。从目前来看,他觉得模型愿景是否明朗以及技术实现与否的评价标准,“就是敢不敢公测。”

尽管商汤在官宣现场进行了实测,但被记者问及测试账号信息时,相关人士回应称,“目前这是主要面向B端的技术”,其表示,商汤日日新大模型体系开放面向政企客户的API接口,客户可以登录商汤官网申请,后续或有序开放To C的测试账号。

商汤方面表达着对大模型研发的一种期待,“在数据量上、参数结构上、以及能处理的问题上,可以日复一日的提高。”

陈根觉得,从现实来看,商汤依然面临训练数据、参数优化、硬件算力等方面的硬伤,这并非孤例,他告诉记者,当下各大厂开发的大模型,都仍处于研发、训练阶段,“不日日新、不日日抓紧优化、调参、训练,就没办法实现公测,也没办法投入使用。”

版权声明:以上内容为《经济观察报》社原创作品,版权归《经济观察报》社所有。未经《经济观察报》社授权,严禁转载或镜像,否则将依法追究相关行为主体的法律责任。版权合作请致电:【010-60910566-1260】。
TMT新闻部记者
长期关注并报道TMT领域的重大事件,时刻保持新闻敏感,发现前沿趋势。擅长企业模式、人物专访及行业深度报道。
重要新闻线索可联系qianyujuan@eeo.com.cn
微信号:EstherQ138279
Baidu
map