“日日新”大模型体系入局商汤想提供一个大模型的“超市”

钱玉娟2023-04-11 10:28

记者钱玉娟 4月10日，商汤科技董事长兼CEO徐立对外宣布，公司在“大模型+大算力”的战略下，通过AI大装置SenseCore打造出了AGI（通用人工智能）实现的基础设施——一个大模型体系。该体系具备自然语言处理、内容生成、自动化数据标注、自定义模型训练等多种大模型及能力，被命名为“日日新SenseNova（下文简称：日日新）”。

“苟日新、日日新、又日新。”徐立分享了命名背后的寓意，他希望在模型的迭代速度及处理问题的能力上，商汤可以“日日更新”，“不断解锁AGI的更多可能”。

在商汤科技联合创始人、首席科学家王晓刚看来，商汤的AGI催生了“新的研究范式”，即基于一个强大的多模态基模型，通过强化学习和人类反馈，不断解锁基模型新的能力，从而更高效地解决海量的开放式任务。

据介绍，在“日日新”大模型体系下，商汤创造出了一系列生成式AI模型及应用，诸如AI文生图创作、2D/3D数字人生成、大场景/小物体生成等。

大模型的“超市”

自ChatGPT推出以来，人们对自然语言大模型的关注度倍增，作为人机沟通的关键手段，自然语言也成为国内一众科技互联网公司开发大模型的重要方向，商汤也不例外。

在“日日新”大模型体系下，商汤研发了一个名为“商量SenseChat”的语言大模型，通过千亿级参数等大量数据训练，充分考虑中文语境，现场演示出了其对中文文本的理解和处理。

记者了解到，“商量SenseChat”还具有编写和调试代码、提供个性化医疗建议以及从复杂文档中提取和概括信息的应用体验，商汤概括这一语言大模型可充当编程、健康咨询以及PDF文件阅读等场景下的“助手”角色。

不只是语言大模型，“日日新”还为政企客户提供了API接口，既包括图片生成，自然语言生成，视觉感知通用任务与自动化数据标注等服务，还可以提供大模型并行训练和模型增量训练服务，便于客户在大模型基础上进行自身垂直领域、行业的自定义模型开发等。

技术创新能力，往往是内生外化的。商汤基于“日日新”大模型体系中的基于视觉大模型，帮助自身提升了在智能驾驶领域中，对环境、行为及动机的解码能力；它还会面向行业开发者开放大量预训练模型及AI开发工具链，以此帮助客户提升开发效率等。

在徐立的规划里，商汤在推出“日日新”大模型体系后，便为上下游提供了一个大模型的“超市”，其中有数据、模型训练以及部署相关。

“商汤已建立了全栈的大模型研发体系，并已在多个行业场景中落地。”王晓刚觉得，从场景的多样性，任务的复杂度以及数据的丰富度等多个维度看，都反映出商汤大模型的能力。

这种“既要有，还得全，最后还能对外供给”的能力，在深耕人工智能产业的量子位联合创始人李根看来，“这种能力不是谁都有的。”

需要提及的是，商汤早自2018年左右就洞察了大模型趋势，也是中国较早押注进行相关规划的公司。但“模型太大、参数太多、训练成本太高。”李根告诉记者，商汤被迫走上了一条自建算力中心、自己造芯片的道路，由此摸索出的是一种提供模型与算力的商业模式，即“从提供掘金工具，到卖水卖服务。”

大模型的“超市”，当商汤将这个目标定位打出来，陈根只觉得，不过是当下时间点将大模型体系推到了台前，“积累的工作，商汤早在之前就完成了。”

入局底气何在？

徐立指出，“在AI大模型时代，数据、算法和算力这三要素也在经历新的演变。”

首先，大模型参数量将以指数级的速率提升，而数据量随着多模态的引入也将大规模增长，这也必然会导致对算力需求的剧增。

正因当前业界训练大模型对大算力的需求旺盛，但真正好用的基础设施又是稀缺的。商汤则历时五年，不仅建设了AI大装置SenseCore，还基于大装置的能力，构建起了计算机视觉、自然语言处理、AI内容生成、多模态、决策智能等多个领域的大模型。

一组数据显示，商汤的AI大装置上共有27000块的GPU芯片卡，可以输出5.0 exaFLOPS的总算力，是亚洲目前最大的智能计算平台之一。基于此，商汤实现“大模型+大算力”的融合创新研发体系。

记者采访了《ChatGPT:读懂人工智能新纪元》一书作者、前沿科技领域作家陈根，他总结认为，商汤目前阶段有两大优势，一是它没有被制裁前，在算力层面比较领先，但“这种领先只能是相较同样被制裁环境下的大厂有领先性，不代表明天和后天仍占优势。”

另外，商汤从人工智能技术研发与理论研究层面来讲，“它拥有华人领域比较优秀且庞大的人工智能专家团队。”

在陈根看来，入局大模型，比拼的不仅仅是模型能力，还有模型的调参优化、数据训练、算力支持等多维度能力的考验。他以谷歌为例，同样拥有算力、数据、模型三方面优势，“但在模型调参优化上没能突破，最终挑战OpenAI也失败了。”

陈根指出，大模型的技术体系不难，甚至是公开的，有人工智能技术团队的企业都可以快速搭出来，但能不能用却是另一回事。从目前来看，他觉得模型愿景是否明朗以及技术实现与否的评价标准，“就是敢不敢公测。”

尽管商汤在官宣现场进行了实测，但被记者问及测试账号信息时，相关人士回应称，“目前这是主要面向B端的技术”，其表示，商汤日日新大模型体系开放面向政企客户的API接口，客户可以登录商汤官网申请，后续或有序开放To C的测试账号。

商汤方面表达着对大模型研发的一种期待，“在数据量上、参数结构上、以及能处理的问题上，可以日复一日的提高。”

陈根觉得，从现实来看，商汤依然面临训练数据、参数优化、硬件算力等方面的硬伤，这并非孤例，他告诉记者，当下各大厂开发的大模型，都仍处于研发、训练阶段，“不日日新、不日日抓紧优化、调参、训练，就没办法实现公测，也没办法投入使用。”

钱玉娟经济观察报记者

TMT新闻部记者
长期关注并报道TMT领域的重大事件，时刻保持新闻敏感，发现前沿趋势。擅长企业模式、人物专访及行业深度报道。
重要新闻线索可联系qianyujuan@eeo.com.cn
微信号：EstherQ138279

新浪微博腾讯微博微信朋友网人人网

热新闻

视频推荐

总编对话｜从中国走向世界——对话松下电器中国东北亚公司总裁CEO木下步

聚焦主业提升品牌：恒安集团接班人的长期主义理想

希捷科技全球执行副总裁暨首席商务官郑万成：未来五年，中国将成为全球生成数据最多的市场

电子刊物

点击进入

用户名登录/手机号登录 还没有账号？免费注册

“日日新”大模型体系入局 商汤想提供一个大模型的“超市”

热新闻

视频推荐

电子刊物

用户名登录/手机号登录

还没有账号？免费注册

“日日新”大模型体系入局商汤想提供一个大模型的“超市”