下午5点,临近饭点的时刻,字节跳动旗下火山引擎在深圳举办的AI创新巡展上依旧人气爆棚,论坛内挤满了站着的观众,线上评论区的人时不时发出惊呼声。火山引擎旗下的豆包大模型一口气放了3个大招:推出2款视频模型PixelDance、Seaweed,一款音乐模型,一款同声传译模型,把其他公司可以展示很多次的技术,在一场发布会上释放的淋漓尽致。
这也是豆包模型家族的首次集体亮相。截至9月,豆包语言模型的日均tokens使用量超过1.3万亿,相比5月首次发布时猛增十倍,多模态数据处理量也分别达到每天5000万张图片和85万小时语音。据QuestMobile数据,截至7月,豆包月活用户规模达到3042万,是国内用户量最大的AI原生应用。
此次豆包视频及其他模型的亮相,意味着火山引擎AI服务能力进一步提升。“在我们努力下,大模型的应用成本已经得到很好解决。大模型要从卷价格走向卷性能,卷更好的模型能力和服务。” 火山引擎总裁谭待表示。
模型家族集体亮相
今年5月豆包首次提出模型家族概念后,不断有人问,什么时候能看到豆包文生视频模型的发布。很多人认为,抖音和剪映对视频有长期理解和积累,豆包一定能在视频生成领域做的非常好。
9月24日亮相的豆包视频模型没有令人失望。在谭待的演示中,输入“特写⼀个⼥⼈的面部,有些⽣⽓,戴上了⼀副墨镜;这时⼀个男⼈从画⾯右侧⾛进来抱住了她。“豆包文生视频模型立刻生成了接近电影画质的画面,以及完整的情节。这句指令的难点在于,它讲了一个人情绪的变化、动作前后时间的变化,而且还会出现一个新的人物。这种复杂指令,在此前的文生视频模型中很难实现,但豆包做到了非常惊艳的效果。
⾖包视频模型还可以让视频在主体的⼤动态与镜头中进行炫酷和平滑切换,拥有变焦、环绕、平摇、缩放、⽬标跟随等多镜头语⾔的实现,灵活控制视⻆,这种能力让视频更像真实世界的体验,而不是PPT版视频。
发布会当天,豆包同时发布了同时发布了音乐模型和同声传译模型。与同类产品相比,豆包模型的特色是真实。音乐模型中,用户只需通过简单的描述或上传一张图片,就能轻松生成一首包含旋律、歌词和演唱的1分钟高品质音乐作品。得益于强大的豆包语音能力,歌曲的歌唱的方面非常真实,包括对气口,还有真假音转化技巧的模拟,可以媲美真人演唱效果。
豆包的同声传译模型采用了全新的端到端模型架构,可以让翻译更加精准、质量更高、时延更低。同时叠加豆包语音克隆的能力,可以媲美真人的同传效果。
目前豆包模型家族已经在字节跳动内部50多个业务,外部30多个行业得到广泛应用。豆包视频生成模型也已经面向企业市场开启邀测。谭待表示,“视频生成有很多难关亟待突破。豆包两款模型会持续演进,在解决关键问题上探索更多可能性,加速拓展AI视频的创作空间和应用落地。”
大模型为云服务带来变革
今年5月,火山引擎在国内第一个把模型成本做到每千token低于一厘钱,其他厂商也跟随豆包的步伐,不断把模型进行降价。9月,豆包视频模型突破了三个业内难题,让文生视频画面质量和效果更加真实。作为国内成立时间较晚的云厂商,火山引擎在大模型时代总是引领先机。
业内人士认为,大模型的兴起,会让云厂商面临重新洗牌。火山引擎正成为AI时代云服务的一股重要力量。
火山引擎率先降价后,大模型行业进入新的发展阶段。9月份,豆包大模型的日均tokens调用量达到每天13000亿次,和5月相比涨了10倍。这说明,当选价格不再是模型的瓶颈。谭待认为,接下来大模型行业要做的,是在这个价格基础上,提高质量和性能。豆包的最终目的是让应用的生态更加繁荣,解锁更多应用场景。
除引领大模型降价外,火山引擎还提出全新性能标准,发起智能终端、汽车、零售大模型联盟,推动行业AI应用创新。目前豆包模型家族已经在帮助客户提效方面做出突出成绩。比如一家AI角色社区和平台,与豆包模型合作后人均对话人次提升150% - 350%,千万量级的TPM综合线上成功请求率高达99.95%。还有一家AI客服公司,用豆包模型做AI客服训练平台全渠道智能知识库,初始支持的RPM提升2000多倍,高并发状态下保障业务稳定性。
谭待认为,火山引擎所服务企业的核心需求是降本增效,在AI时代,这需要自下而上的创新。在这个认知基础上,火山引擎除了做好豆包模型,还做扣子平台和HiAgent开发平台。他的最终目标是实现火山引擎的使命,成为全球领先的云和AI服务商,帮助企业降本增效加速创新,这个使命4年未变,未来10年也不会变。
文/刘畅