记者 陈奇杰 马云、雷军、周杰伦、特朗普……这些国内外公众人物的真实声音,被一些创作者使用AI音频应用克隆后,制作成语音角色,并发布在AI音频分享社区。用户只需几十秒钟,便可依靠这些语音角色生成一段接近真人讲话音质的AI音频。
“十一”假期期间,网友制作了大量小米公司创始人雷军的AI音频,并在结合画面合成音视频后,将此类内容上传到抖音、快手和B站等互联网平台,其中不乏骂人、恶搞小米产品的语音,成为舆论热点。而在9月底,一名犯罪嫌疑人利用AI音频应用Reecho睿声(下称“睿声”)伪造了三只羊创始人卢文庆的录音,更是导致警方介入调查。
雷军AI音频事件发酵后,互联网平台上的大量相关音视频被删除,但仍有少量剩余。记者在10月13日发现,用户依然能够使用睿声AI音频分享社区(下称“睿声社区”)里名为“雷军”的语音角色制作音频,一个“雷军”语音角色已被使用60.3万次。
睿声是深圳市言域科技有限公司(下称“言域科技”)旗下的AI音频应用和分享社区。言域科技创始人谢伟铎告诉,小米法务方面已与该公司取得联系,希望其能对社区中涉及雷军的音频内容进行管控。目前,言域科技已通知原作者下架相关内容,如果原作者在7个工作日内没有下架,该公司会进行强制删除。
AI音频制作者、语音角色创作者、AI音频应用和分享社区、互联网平台,共同构成了制作公众人物AI音频的上下游链条。当此类音频引发负面舆情时,链条上的涉事各方分别需要承担什么责任?被侵权人能否利用现有技术精准追溯到肇事方?
制作者的责任
目前,AI音频制作者主要通过两种形式生成公众人物的音频。
第一种方式为,AI音频制作者直接使用AI技术提供方的技术生成音频。谢伟铎说,此前,合肥警方通过互联网平台溯源找到了伪造卢文庆录音的犯罪嫌疑人,在其电脑上看到了使用睿声的记录。言域科技配合警方调取了该嫌疑人的生成记录以作证据。
言域科技方面披露,该嫌疑人截取了卢文庆在直播中大约30秒的情绪较为饱满的音频作为素材,并用自己编撰的文本在睿声的平台上进行合成。其后,该嫌疑人在一个较为嘈杂空旷的环境中,播放合成后的音频,并用其他录音设备分段做翻录及拼接。这一操作增加了环境氛围感,导致众多网友难以区分该录音是真实还是伪造。
第二种方式为,创作者上传公众人物的真实声音,克隆出接近其声音的语音角色,并分享至AI音频分享社区上,其他制作者可以直接使用此类语音角色再生成AI音频。相比前一种,第二种生成AI语音的方式更加便捷。
记者在睿声社区中选择一个名为“雷军”的语音角色,输入200个字符的文字,点击生成音频。不到一分钟,一段仿造雷军讲话的AI音频就被制作出来。
截至10月13日,睿声社区的一个“雷军”语音角色,被使用次数为60.3万次,生成字符数为3371.8万个;在AI音频应用Fish Audio上,一个“雷军”语音角色被使用了17.4万次。
网友在制作公众人物的AI音频时,往往不会注意此类行为需要得到授权,一位B站用户说,他只是看到很多人合成雷军的AI音频,于是萌生了制作雷军AI语音解说游戏视频的想法。另一位制作了类似视频的B站用户称,“(这种视频)网上很多,应该没事,有提示违规我就删”。
泰和泰律师事务所律师杜双告诉,根据现有司法判定标准,高度可识别的AI生成声音受到法律保护。AI配音素材提供者、视频制作者未经雷军本人或小米公司授权,将其AI生成的声音用于制作、传播具有辱骂、诽谤性质的音视频内容,本身已构成对雷军肖像权、名誉权等多项人格权侵权,甚至会侵犯小米公司的名誉。
技术提供方的义务
在前述两种AI音频制作方式中,AI音频应用公司扮演了不同的角色。在第一种方式下,他们仅充当AI技术提供方。在第二种方式下,他们则具备AI技术提供方和运营方的双重属性。
言域科技创始人谢伟铎认为,AI应用只是内容转化的工具,在内容把控方面,更优先的选项是由用户负责。作为用户生成内容(UGC)社区,在合法合规的情况下,言域科技并不愿过度干预用户生产的内容。
因此,言域科技主要通过提示用户和内容溯源的形式,进行合规经营。
言域科技在官网上提醒用户,请勿使用其服务克隆或生成任何侵犯版权、违反道德伦理或违反中华人民共和国法律法规的内容。
三只羊伪造录音事件后,言域科技回应称,其正在部署包括强化的实名认证机制,强化的敏感词多维度智能侦测预警,以及可溯源音频水印等多重安全措施。
谢伟铎说,现在用户使用睿声生成的所有内容都可以被溯源到,能溯源到的信息包括技术平台以及内容制作用户等。
内容可溯源是监管方面对AI技术提供方和运营方的要求。全国信息安全标准化技术委员会秘书处去年8月发布的《网络安全标准实践指南—生成式人工智能服务内容标识方法》称,由人工智能生成图片、音频、视频时,应在生成内容中添加显式水印和隐式水印标识。
杜双称,根据《互联网信息服务深度合成管理规定》(下称《管理规定》),AI技术提供方还拥有加强训练数据管理、保障训练数据安全、保护个人信息等义务。同时,对提供人脸、人声等生物识别信息编辑功能的,应当提示技术使用者依法告知被编辑的个人,并取得其单独同意。
注意到,一些创作者制作的“马云”“周杰伦”“特朗普”“蔡徐坤”等语音角色,被发布在睿声社区的首页上,并且可以被未注册用户看到。此时,这些公众人物的语音角色成了AI音频应用公司吸引流量的工具。
杜双说,这种情形下,制作语音角色的创作者已经构成侵权。AI音频分享社区如果发现侵权行为或者权利人投诉举报,需要及时删除下架相关素材。如果不及时删除,AI音频分享社区需要承担一定的侵权责任。
谢伟铎说,目前睿声正在和一些配音演员合作,考虑推出高质量的官方角色。未来可能也会在验证过版权的情况下,开展用户出售声音版权的业务。
平台:寄望于用户标识
在本次雷军AI音频事件中,抖音、快手和B站等互联网平台是主要传播渠道。面对越来越多的AI生成内容,互联网平台有何责任?
杜双说,作为传播渠道的平台方,同样受《中华人民共和国网络安全法》《管理规定》规制,针对可能导致公众混淆或者误认的深度合成技术,应当在生成或者编辑的信息内容的合理位置、区域进行显著标识,向公众提示深度合成情况。
目前,主流社交平台对AI内容采取的措施,一般是先让用户做出声明,并在AI生成的内容旁标注类似于“本内容为AI生成”标识。
从快手方面了解到,其在2023年9月上线了AI内容作者声明功能,并要求用户在发布人工智能生成内容时,务必添加作者声明,避免AI内容在传播过程中带来误解。
B站、抖音等视频内容平台同样采取了类似的措施。例如,抖音在用户服务协议中提到,用户不得利用基于深度学习、虚拟现实等的新技术新应用制作、发布、传播虚假新闻资讯信息。用户在发布或传播利用基于深度学习、生成式人工智能等新技术新应用制作的非真实音视频信息,或其他可能导致公众混淆或误认的信息内容时,应当以显著方式予以标识。
对于未以显著方式标识的AI生成内容,B站的用户协议还进一步提示,B站“有权对相关内容和账户采取包括但不限于增加标识、限制、封禁等措施”。
但记者为抖音、B站上传一段AI音视频后发现,在不主动选择对该音视频作出标注的情况下,两家平台都没有检测出该音视频为AI生成。
一家AI鉴伪公司的高管曾接触过互联网平台。在他看来,出于自身成本及监管力度等综合原因,目前互联网平台对AI伪造内容的管理意愿还不高。