雷军AI语音屡禁不绝谁该为此负责？

陈奇杰2024-10-13 21:26

记者陈奇杰 马云、雷军、周杰伦、特朗普……这些国内外公众人物的真实声音，被一些创作者使用AI音频应用克隆后，制作成语音角色，并发布在AI音频分享社区。用户只需几十秒钟，便可依靠这些语音角色生成一段接近真人讲话音质的AI音频。

“十一”假期期间，网友制作了大量小米公司创始人雷军的AI音频，并在结合画面合成音视频后，将此类内容上传到抖音、快手和B站等互联网平台，其中不乏骂人、恶搞小米产品的语音，成为舆论热点。而在9月底，一名犯罪嫌疑人利用AI音频应用Reecho睿声（下称“睿声”）伪造了三只羊创始人卢文庆的录音，更是导致警方介入调查。

雷军AI音频事件发酵后，互联网平台上的大量相关音视频被删除，但仍有少量剩余。记者在10月13日发现，用户依然能够使用睿声AI音频分享社区（下称“睿声社区”）里名为“雷军”的语音角色制作音频，一个“雷军”语音角色已被使用60.3万次。

睿声是深圳市言域科技有限公司（下称“言域科技”）旗下的AI音频应用和分享社区。言域科技创始人谢伟铎告诉，小米法务方面已与该公司取得联系，希望其能对社区中涉及雷军的音频内容进行管控。目前，言域科技已通知原作者下架相关内容，如果原作者在7个工作日内没有下架，该公司会进行强制删除。

AI音频制作者、语音角色创作者、AI音频应用和分享社区、互联网平台，共同构成了制作公众人物AI音频的上下游链条。当此类音频引发负面舆情时，链条上的涉事各方分别需要承担什么责任？被侵权人能否利用现有技术精准追溯到肇事方？

制作者的责任

目前，AI音频制作者主要通过两种形式生成公众人物的音频。

第一种方式为，AI音频制作者直接使用AI技术提供方的技术生成音频。谢伟铎说，此前，合肥警方通过互联网平台溯源找到了伪造卢文庆录音的犯罪嫌疑人，在其电脑上看到了使用睿声的记录。言域科技配合警方调取了该嫌疑人的生成记录以作证据。

言域科技方面披露，该嫌疑人截取了卢文庆在直播中大约30秒的情绪较为饱满的音频作为素材，并用自己编撰的文本在睿声的平台上进行合成。其后，该嫌疑人在一个较为嘈杂空旷的环境中，播放合成后的音频，并用其他录音设备分段做翻录及拼接。这一操作增加了环境氛围感，导致众多网友难以区分该录音是真实还是伪造。

第二种方式为，创作者上传公众人物的真实声音，克隆出接近其声音的语音角色，并分享至AI音频分享社区上，其他制作者可以直接使用此类语音角色再生成AI音频。相比前一种，第二种生成AI语音的方式更加便捷。

记者在睿声社区中选择一个名为“雷军”的语音角色，输入200个字符的文字，点击生成音频。不到一分钟，一段仿造雷军讲话的AI音频就被制作出来。

截至10月13日，睿声社区的一个“雷军”语音角色，被使用次数为60.3万次，生成字符数为3371.8万个；在AI音频应用Fish Audio上，一个“雷军”语音角色被使用了17.4万次。

网友在制作公众人物的AI音频时，往往不会注意此类行为需要得到授权，一位B站用户说，他只是看到很多人合成雷军的AI音频，于是萌生了制作雷军AI语音解说游戏视频的想法。另一位制作了类似视频的B站用户称，“（这种视频）网上很多，应该没事，有提示违规我就删”。

泰和泰律师事务所律师杜双告诉，根据现有司法判定标准，高度可识别的AI生成声音受到法律保护。AI配音素材提供者、视频制作者未经雷军本人或小米公司授权，将其AI生成的声音用于制作、传播具有辱骂、诽谤性质的音视频内容，本身已构成对雷军肖像权、名誉权等多项人格权侵权，甚至会侵犯小米公司的名誉。

技术提供方的义务

在前述两种AI音频制作方式中，AI音频应用公司扮演了不同的角色。在第一种方式下，他们仅充当AI技术提供方。在第二种方式下，他们则具备AI技术提供方和运营方的双重属性。

言域科技创始人谢伟铎认为，AI应用只是内容转化的工具，在内容把控方面，更优先的选项是由用户负责。作为用户生成内容（UGC）社区，在合法合规的情况下，言域科技并不愿过度干预用户生产的内容。

因此，言域科技主要通过提示用户和内容溯源的形式，进行合规经营。

言域科技在官网上提醒用户，请勿使用其服务克隆或生成任何侵犯版权、违反道德伦理或违反中华人民共和国法律法规的内容。

三只羊伪造录音事件后，言域科技回应称，其正在部署包括强化的实名认证机制，强化的敏感词多维度智能侦测预警，以及可溯源音频水印等多重安全措施。

谢伟铎说，现在用户使用睿声生成的所有内容都可以被溯源到，能溯源到的信息包括技术平台以及内容制作用户等。

内容可溯源是监管方面对AI技术提供方和运营方的要求。全国信息安全标准化技术委员会秘书处去年8月发布的《网络安全标准实践指南—生成式人工智能服务内容标识方法》称，由人工智能生成图片、音频、视频时，应在生成内容中添加显式水印和隐式水印标识。

杜双称，根据《互联网信息服务深度合成管理规定》（下称《管理规定》），AI技术提供方还拥有加强训练数据管理、保障训练数据安全、保护个人信息等义务。同时，对提供人脸、人声等生物识别信息编辑功能的，应当提示技术使用者依法告知被编辑的个人，并取得其单独同意。

注意到，一些创作者制作的“马云”“周杰伦”“特朗普”“蔡徐坤”等语音角色，被发布在睿声社区的首页上，并且可以被未注册用户看到。此时，这些公众人物的语音角色成了AI音频应用公司吸引流量的工具。

杜双说，这种情形下，制作语音角色的创作者已经构成侵权。AI音频分享社区如果发现侵权行为或者权利人投诉举报，需要及时删除下架相关素材。如果不及时删除，AI音频分享社区需要承担一定的侵权责任。

谢伟铎说，目前睿声正在和一些配音演员合作，考虑推出高质量的官方角色。未来可能也会在验证过版权的情况下，开展用户出售声音版权的业务。

平台：寄望于用户标识

在本次雷军AI音频事件中，抖音、快手和B站等互联网平台是主要传播渠道。面对越来越多的AI生成内容，互联网平台有何责任？

杜双说，作为传播渠道的平台方，同样受《中华人民共和国网络安全法》《管理规定》规制，针对可能导致公众混淆或者误认的深度合成技术，应当在生成或者编辑的信息内容的合理位置、区域进行显著标识，向公众提示深度合成情况。

目前，主流社交平台对AI内容采取的措施，一般是先让用户做出声明，并在AI生成的内容旁标注类似于“本内容为AI生成”标识。

从快手方面了解到，其在2023年9月上线了AI内容作者声明功能，并要求用户在发布人工智能生成内容时，务必添加作者声明，避免AI内容在传播过程中带来误解。

B站、抖音等视频内容平台同样采取了类似的措施。例如，抖音在用户服务协议中提到，用户不得利用基于深度学习、虚拟现实等的新技术新应用制作、发布、传播虚假新闻资讯信息。用户在发布或传播利用基于深度学习、生成式人工智能等新技术新应用制作的非真实音视频信息，或其他可能导致公众混淆或误认的信息内容时，应当以显著方式予以标识。

对于未以显著方式标识的AI生成内容，B站的用户协议还进一步提示，B站“有权对相关内容和账户采取包括但不限于增加标识、限制、封禁等措施”。

但记者为抖音、B站上传一段AI音视频后发现，在不主动选择对该音视频作出标注的情况下，两家平台都没有检测出该音视频为AI生成。

一家AI鉴伪公司的高管曾接触过互联网平台。在他看来，出于自身成本及监管力度等综合原因，目前互联网平台对AI伪造内容的管理意愿还不高。