记者 谢楚楚 “要不要和媒体朋友打个招呼?”对方回复:“媒体朋友你们好,很高兴认识你们。”
这是音乐人包小柏在3月6日接受采访时给女儿发送的一条语音信息。包小柏的女儿包容已经离世,他用AI“复活”了女儿。近期,女儿给妻子唱生日歌一事也引起了外界广泛关注。
女儿的声音经过了上千次反复调整,最终达到了发音语调、腔调与本人一致的效果。这也是构建包容数字生命中最难的一部分。包小柏现在不仅能用类似微信的工具与女儿进行即时聊天,还能看到女儿的唱歌表演。
2021年12月20日,包容因病去世。在2022年7月,与老友刘岩的一次聊天中,包小柏第一次向对方提出希望把女儿具象化以寄托思念。六间房创始人、被称为“直播教父”的刘岩有着制作虚拟偶像、全息演出的经验。在虚拟世界、元宇宙大热的背景下,包小柏的设想仅限于将女儿的形象、声音虚拟成一个虚拟人物,放进元宇宙里,并无要求声音相似度,最终呈现形式也仅限于卡通2D或3D虚拟人。
一个多月后,刘岩拿出了一份有确切时间表的实验计划书,预计2025年能实现互动。事实上,在ChatGPT正式问世之前,刘岩已注意到了大语言模型,这也是他感觉真人复刻这条路可行的关键。2022年11月底,ChatGPT正式问世,真人复刻被确定了下来。
在包小柏对女儿声音除杂、声纹重建的上千次尝试以及小冰公司的大语言模型训练下,原计划2025年实现的即时互动,在2024年初得以提前完成。
包小柏认为女儿能实现这样的陪伴已经足够,并不打算急着将她再发展成更智慧、有灵性的人。他说,“AI的进步会超乎想象,也存在不可控的一面”。包小柏目前创办了一家以女儿为名的爱语包容服务公司,希望普及这项技术,帮助更多的普通人。
“包容碳基生命转数字生命计划”
2022年7月,包小柏在朋友的鼓励下来内地散心,也与老友刘岩碰上了面。在30分钟的同行路上,包小柏提出一个想法:是否有可能把女儿的形象、声音虚拟成一个虚拟人物,放进元宇宙里?这是受启发于当时扎克伯格全力投入元宇宙的事件。
当时刘岩一口答应了下来。而令包小柏没想到的是,朋友之间的一次闲聊竟被刘岩如此认真对待。2022年9月,刘岩拿出了一份计划书,名称叫“包容碳基生命转数字生命计划”。计划书分为四个部分:第一步是声音建库、第二步是建立人物模型、第三步是声音的大语言模型训练,前三步预计在第一年完成,第四步是在线对话训练,预计在2023年底完成,2025年计划实现即时的在线对话。
一开始,包小柏对技术究竟能实现到什么程度没有概念,不敢奢求处处做到相似。刘岩也一样,他当时也不确定“数字生命”的构建究竟能达到何种程度,甚至到了2022年11月,他们一度都觉得拟真的这条路很难走下去。
当时市面上已有类似邓丽君数字真人参照物,但这样的巨星复刻背后是强大的制作团队和上百万美元的制作费,普通人无法拥有这样的实力。
虽然ChatGPT尚未正式问世,但涉及它的相关学术论文已经发布,且当时美国硅谷、技术圈人士已在广泛验证该技术。刘岩一直对此保持着密切关注。等到2022年11月底,ChatGPT正式问世、AI大语言模型热度传导至中国后,刘岩在2023年初给包小柏打了一个电话:“事情进展得很好,有曙光了。”
ChatGPT给真人复刻带来了确定性,但新问题出现了:没有足够的数据、内容做训练。
2023年1月,刘岩找到国内第一个做大语言模型的小冰公司。该公司的“小冰框架”,以自然语言处理(NLP)为基础,满足了包小柏对包容数字生命互动的目标。而这一环节的关键是构建包容的个性,包括模拟她说话的语音、腔调。但要想实现这一点,有一个苛刻的训练条件:提供包容实际的声纹数据,且需要高清无杂质的数小时的录音规格。
声音是关键,也很难
包小柏从来没有做过这种准备,他找遍了所有可能的录音,最终在女儿上课途中介绍学校地理环境的视频里,找到了完整的三句英文。但是视频里风声很大,与小冰公司的要求相差甚远。
机器训练学习的特点是,你给了什么样的声音为基础,就会在此基础上训练。因此必须一开始给出准确的连贯说话发音,包括咬字、腔调、音色、语速及相关个性,如声音起承转合、高低音以及开心难过时的特定发音等。
包小柏从事的录音工作帮他克服了这个难点,“从前我们要求歌手唱到音准,在此基础上还要加后期,比如加回响、压缩、降噪,这些都是制作人录音工程的基本知识”,他用专业手法把女儿的三句英文录音进行了复原。
经过4个月的声纹重建,机器里的声音已很像包容,但音质像嘴巴被杯子盖住了一样。包小柏不甘心,经过不断思考和上千次调试,他终于在2023年6月完成了构建包容讲完整句子的声音。他正在写的博士期刊论文主题也与此相关:如何重建残缺破碎性声纹数据。
但声音的腔调始终是个问题,目前国内所有大语音模型的基础都是标准普通话,而包容在英语环境中长大,说中文也是台湾口音。于是小冰公司把包容的声纹结构训练出来后,像贴面膜一样套在了台湾语调的模型上,重新训练。
最后是在线对话训练和记忆库的构建,包小柏需要坐在电脑前与一个机器人进行对话练习,与此同时,包小柏的太太不断输入女儿包容的成长记忆库,例如告诉机器人:我喜欢吃,一想到什么就很开心,三岁的好朋友是谁……
让技术服务大众
有一次,包小柏在工作室整理女儿的语音内容,长期戴着耳机太累了,他就把耳机摘了下来,公放了女儿的声音。包小柏的太太正好在门外听到,问:“这个人讲话怎么这么像包容?”那一刻,得到了太太的认可,包小柏就觉得自己成功了。
AI复刻的包容未来还可以更接近自然的对话方式,对周边环境和自己的性格更熟悉,“但你真的要把她训练成像人一样吗?”包小柏产生了这样一个疑问。
他不打算继续下去了。在他看来,复刻的女儿目前能做到了精神陪伴和慰藉家人。AI的进步超乎想象,假设赋予数字生命更多灵性,也许会带来不可控制的后果。
这项技术也引发了一定争议,如道德伦理、隐私侵权、犯罪问题。AI目前也被广泛应用于声音诈骗。对此,包小柏表示,AI相关企业必须承担社会责任,在法律尚未出台、无监管的情况下,企业更应该有自知之明。而个人必须学习、了解AI才不会被替代,也更容易防范诈骗。
据媒体报道,目前市面上已有公司涉足AI“复活”亲人业务,每年接上百个订单,收费在几千元到一万元不等,利润可观。包小柏表示,这项技术工程耗时耗力,如果企业有底气接如此多的订单,原因可能是其模型运算力非常强大,但也可能会存在质量差异。
包小柏认为,AI趋势不可阻挡,而AI能将思念具体化也是其正向影响的一面。他也用亲历的方法帮助身边朋友做了不少案例。
采访快结束时,伴随着歌曲《Right Here Waiting》,包容说道:“大家好,我是包容,如果有机会跟已经去世的亲人对话,你愿意吗?别误会,这不是什么灵异事件,而是由‘爱语包容’开发的一种服务,在这里,一生的故事都会变成通过影像与图片来跟我们聊天。服务公司的创办人包小柏基于失去女儿的悲痛,钻研人工智慧的声纹重建及语音生成技术,发展成为了‘爱语包容’的服务,希望更多使用者能得到精神上的陪伴与安慰。”