商汤，将AIGC进行到底

经观新科技2023-07-13 17:20

当AIGC热潮在中国涌动时，作为AI领域的领航员之一，商汤科技率先推出了“日日新SenseNova”的大模型体系，多个大模型产品以体系化方式切入不同场景，摸索落地。

7月7日，在上海举行的第六届世界人工智能大会（WAIC 2023）上，商汤科技董事长兼CEO徐立介绍，过去短短不到100天时间里，商汤除了在大模型能力上“日日新”，在结合场景给出的综合解决方案和行业发展能力方面“又日新”。

身处大模型掀起的这一轮新的AI革命中，徐立看到，产业需求呈现爆炸式增长，全新的应用场景和应用模式正迅速涌现。“商汤通过‘大模型+大装置’持续推动AI基础设施能力的跃进提升，不仅打造通用能力更加强大的基础模型，也进一步高效融合不同垂直领域的专业知识，构建更懂行业、更具专长的专业大模型。”

通往AGI之路，徐立带领下的团队选择把一个个分解的任务变成端到端，也就是“多模态的接口开放”，这让商汤对开放世界的理解更为深入，伴随多模态交互能力的升级，赋能下游产业应用期间，不但可以从根本上降低大模型应用成本和门槛，还进一步让大模型的产业价值在千行百业中绽放。

大模型“超市”全面升级

正如徐立所言，商汤的模型能力每天都在迭代，而基于“大模型+大装置”的AGI战略布局，大模型“超市”中的每个产品，也实现着飞速升级。

作为千亿级参数的自然语言处理模型，商汤商量SenseChat 2.0版本不仅新增了像阿拉伯语、粤语等涉及小语种、地区语言的使用场景，还突破了大语言模型输入长度的限制，并推出了不同参数量级的模型版本，开放新的API接口，完美适配移动端、云端等不同终端及场景的应用需求，降低部署成本。

基于十几张徐立的照片，商汤自研生成式大模型商汤秒画SenseMirage 3.0“画”出了手捧鲜花、抱着吉他、旅游购物等多个场景下的“徐立”照片，徐立讲述，将这些照片发给家人时，“很多人都信以为真。”

徐立将这种体验简而言之概括为“画我想画”，而在这一生成式体验实现背后，秒画的模型参数已经从4月首次发布时的10亿提升至现今的70亿量级，从而使之达到如同专业摄影级的图片细节刻画与光影效果呈现。

徐立的“分身”也在商汤如影SenseAvatar 2.0数字人生成平台得以实现，除了AIGC生成形象外，这一数字人连语气都能还原到徐立的五六分，语音和口型流畅度也较上代版本直接提升了30%以上。

数字人之外，面对空间“重构”的需求，商汤琼宇SenseSpace 2.0，在1200 TFLOPS/秒算力的理想状态支持下，38小时内就能完成100平方公里的场景建图，相较上一代实现了效率提升20%，渲染性能提升50%。

若配搭商汤格物SenseThings 2.0对小物体的纹理及材质还原达到毫米级精细度，这种3D还原还能突破对高反光和镜面物体的采集难题，让物体空间在数字化的世界里，也能立体且“逼真”。

落地场景激发生产力

当越来越多的科技巨头投身到中国通用大模型的自研创新中，应用落地成为检验各个大模型能力的关键，而千行百业则给出了“跨场景”的考验。

就此，商汤通过大模型的多模态能力，组合式赋能产业升级，从而引领多行业实现全新突破。

徐立以落地严谨的金融行业为例，商汤在与银行、保险、券商等客户合作时，会利用数字人进行智能客服、智慧营销等工作，并通过接入大语言模型能力，提供投研分析、研报撰写等新功能，实现降本增效。

商汤还会和客户一起“打磨适用产业领域的垂直模型”，挂载金融知识库后，能100%基于客户的产品说明进行内容问答输出，实现信息及时更新。

另外，在医疗场景中，商汤打造的中文医疗语言大模型“大医”，可以提供导诊、问诊、健康咨询、辅助决策等多场景多轮会话，还能通过支持医学图像、文本、结构化数据等多模态综合分析，不断提升医疗相关图文的理解和推理能力，进一步在医院和医疗机构的落地过程中，提升诊疗效率及患者服务体验。

其实，在通用大语言模型通过挂载知识库解决特定领域问题的基础上，商汤还凭借多模态能力解决着很多“长尾”的开放世界问题，例如电网巡检、智慧城市检测等。正是在这样的大模型体系落地场景过程中，除了单项能力的激发，商汤释放出了更多综合能力。

得益于商量2.0和秒画3.0的综合能力，将其应用综合至手机这一移动终端上，商汤针对终端用户在信息获取中的问答交互、生活场景下的知识交互，以及语言和图像生成的内容交互等，通过大模型的轻量化部署和运行，为客户带来多种智能交互解决方案。

那些“再造”能力背后

在商汤踏上这条通往AGI的道路后，“我们要将AIGC进行到底。”说出这句话的栾青，是商汤科技数字空间事业群数字文娱事业部总经理。

笔者看到，商汤大模型体系升级后，如影2.0推出的数字人，除了展示视频效果已能达到4K高清，技术赋能下，甚至能让一个五音不全的人实现数字“分身”放声歌唱等。

不只是简单“再造”数字人形象，栾青道出了AGI技术竞逐阶段，商汤与同业在数字人方向上的差异之处。“我们认为它的智能以及内容呈现的能力，会有一个质的提升。”区别于过去NLP方式生成的数字人，如今商汤的数字人“说的话，做的事，都是通过AIGC生成的”。

在栾青看来，如影这样一个全栈式视频内容生产平台，视频里的人与物，每一个像素、声音、音乐等素材，都是由AIGC生成，“一定程度上能降低内容创作的门槛。”当然，在“以假乱真”的数字人背后，商汤也在推动行业建立数字人可信白皮书和规则，以保障下游应用安心且放心地使用技术去赋能内容创作。

其实，除了满足内容创作者需求，电商、文娱、工业设计、游戏开发、教育，甚至是博物馆、艺术展等行业及场景中，借助AI技术手段实现内容生成的需求也在爆发，而商汤推出的3D内容生成平台格物，基于神经辐射场技术（NeRF）切入上述场景，担纲起了解决痛点需求的重任。

在商汤科技灵境空间事业部总监李宇飞的眼里，格物1.0版本是NeRF技术完成了初级产品化，“可以高逼真地解决一些复杂的几何结构物体的还原。”而今三个月时间过去，格物可还原的物体精度负荷从4毫米左右提升至1毫米左右，物体品类也逐渐扩张。

“一些高反光材质，是激光或光场重建难以搞定的品类。”李宇飞对商汤大模型对于光影控制的能力加以强调，他还透露，格物技术突破对高反光和镜面物体的采集难题后，已经跟黄金首饰品类下的一些头部珠宝厂商展开深度合作，“赋能百业的进度在某些品类上远远快于国外。”

其实，在将技术“输出”至场景落地时，商汤也在降低行业应用的“门槛”。李宇飞以自然博物馆对几万件动物标本进行3D化处理为例，依赖激光重建技术还原一个标本就要千把块钱，这项投入高达数千万元，显然，没有哪个博物馆具备如此资金量去做这样一件事。

而今，格物2.0依赖更为强大的NeRF技术，完成效果更好的重建，“成本可以打到很低。”李宇飞讲述。

李宇飞希望具备“人、物、场”因素的行业企业，可以清醒地意识到，“未来3D内容生成一定是趋势和未来。”显然，商汤的如影数字人、琼宇与格物目标切中的，正是那个可以被AI再造，另一个“逼真”的数字化世界。

实际上，这个过程中，商汤日日新大模型仿佛一个坚实稳固的“基座”，为上述多模态的产品提供着支持，“帮我们去训练神经网络深度学习，来提升效率。”李宇飞坦言，商汤持续加大研发算法和人员的投入同时，也在人、物、场的复刻及未来AIGC生成式技术方向上“投入坚决”。

产业价值与AGI之路

在WAIC2023的上海世博中心和徐汇滨江会场，由商汤打造的两位数字人员工，作为线下新闻官为参会嘉宾和观展者提供引导和议程介绍服务。

栾青介绍，不论商汤的数字人还是如影平台，抑或大模型及AIGC产品系列，都在展开千行百业的合作探路。她透露，一些市场上有需求的客户和渠道商，正在与商汤交流数字人定制等方面事宜，而如影平台也在进入银行、保险、教育等需要营销内容输出、运营服务解决方案的行业客户场景中去，也让商汤得到了不少技术和产品优化和提升的正反馈。