起诉OpenAI

陈永伟2023-07-11 01:05

陈永伟/文

最近，总部位于加州的克拉克森律师事务所（ClarksonLawFirm）向加州北部地区巡回法院提交了一份长达157页的起诉书，对风头正劲的人工智能公司OpenAI和它的合作伙伴微软提起了一项集体诉讼。

在起诉书中，原告指控OpenAI和微软在开发、营销和运营其AI产品时，对数以亿计的互联网用户的个人信息，包括儿童信息进行了非法收集、使用和分享。原告认为，被告的上述活动违反了多项法律。据此，原告要求法院对被告发布禁令，并对被告的损失进行赔偿。

由于这项诉讼是ChatGPT爆火以来面临的第一次较有影响力的诉讼，因此在很多新闻报道中将其称为“ChatG－PT第一案”。不过，严格来说，这个“第一案”的名头可能未必恰当。一方面，几乎就在克拉克森律师事务所提起诉讼的同时，作家保罗·崔布雷（PaulTrem－blay）和莫纳·阿瓦德（MonaAwad）也向旧金山联邦法院提起了一项针对Ope－nAI的著作权诉讼。只不过，克拉克森律师事务所提起的这项诉讼在媒体上披露得更多（或许这应该归功于律所的诉讼策略），因而其影响更大。另一方面，这次诉讼涉及的对象也不限于ChatGPT，而是包括了ChatGPT、Dall-E、Codex在内的众多OpenAI旗下产品。基于这一点，相比于将这次诉讼称为“ChatGPT第一案”，倒不如将其称作“OpenAI第一案”更为恰当。

AI：最好和最糟的发明

2016年10月，著名物理学家斯蒂芬·霍金（StephenHawking）曾在一次演讲中说道：“AI的成功创造可能是我们文明史上最大的事件。但它也可能是最后一次，除非我们学会如何避免风险。”在他看来，“强大的人工智能的崛起或许是人类有史以来最好的事情，但也可能是有史以来最糟糕的事情。”

在克拉克森律师事务所向法庭提交的起诉书的开头，就这次集体诉讼的基本情况撰写了一段引言，其中就引述了霍金的上述著名言论。在代理案件的律师看来，随着ChatGPT等产品的成功，一场激烈的AI军备竞赛正在大型科技企业之间展开。这在大幅推进AI技术进步的同时，也迫使人们不得不认真思考霍金的预言：人们应该选择一条更为安全、繁荣、可持续的AI发展道路，还是选择一条通向毁灭的AI发展道路。

起诉书指出，被告的产品及其技术无疑具有很多向善的潜力，但遗憾的是，它们在拥有了强大力量的同时，却没有意识到它所蕴含的破坏性力量。

原告律师引述了OpenAI安全部门负责人的一段公开发言。这段发言表明，OpenAI方面其实早就认识到，它们的AI产品是“一项相当不成熟的技术”，如果没有足够的安全防范，激进地部署AI模型将是非常鲁莽的。但显然，OpenAI的上述认识并没有让其放缓对AI的研发和部署。在原告律师看来，正是这种对风险的忽视和放纵，造成了对人们隐私权、财产权等多种权利的侵犯。

原告律师指出，被告这种为谋取经济利益而不惜牺牲他人和公众利益的行为是非法的。据此，他们呼吁法庭要求被告立即停止这些行为，并让被告确保他们今后的产品是透明（Transparen－cy）、可问责（Accountability），以及可控（Control）的。

美国AI的发展回顾

在结束了“引言”之后，起诉书对美国AI的发展进行了一段回顾——不过，虽然题为“美国AI发展”，其实关注的焦点完全是在OpenAI和微软这两个被告上。具体来说，这段回顾强调了四个基本的事实：

（1）OpenAI从非营利组织向营利公司的转变

最初，OpenAI是以一个非营利研究机构的形式成立的，它声称要以安全和负责任地推动人类进步作为自己的使命。然而，从2019年起，OpenAI的战略就发生了180度的转变，从一个开放的非营利组织转向以盈利为目的的公司结构，并与外部投资者进行合作，其中最著名的合作者就是微软。

从商业上看，OpenAI的这个转型是非常成功的。短短几年时间，它就从一家默默无闻的AI研究机构摇身一变成了估值290亿美元的公司。但是，原告律师指出，这个转变也带来了很多问题。很多人担心OpenAI因此将短期财务利益置于人类利益之上，尤其是他们在已知存在风险的情况下突然将产品广泛商业化，可能引发道德、安全和伦理等多个方面的问题。

（2）ChatGPT的发展对秘密抓取网络数据的依赖

大型语言模型的开发和训练严重依赖于个人数据，尤其是人与人之间的对话数据。起诉书指出，为了能够以相对低廉的成本对ChatGPT等大语言模型进行训练，OpenAI坐视成熟的数据交易市场不用，而选用了“偷窃”（theft），也就是秘密在互联网上爬取数据的方式。在数年中，它爬取了大约3000亿字的网上文本资料，包括书籍、文章，以及网络帖子等。除此之外，它还秘密爬取了大量的个人数据，包括个人信息、聊天记录、在线客户服务互动、社交媒体对话和从互联网上抓取的图片等。

（3）ChatGPT在用户的应用程序上进行训练

起诉书指出，最初，ChatGPT曾在未经用户同意的情况下，利用用户来帮助其进行模型的训练。当用户和ChatGPT聊天时，他的所有行为和信息，包括点击、输入、问题、使用、移动、按键、搜索和地理位置等，都会被Ope－nAI秘密搜集，并用于模型的训练。

另外需要指出的是，OpenAI并没有对其搜集的用户信息的保存状况进行充分披露。由于这些数据当中可能包含用户的敏感信息，因此在缺乏妥善保护的情况下，它们存在着很大的泄露风险。

（4）微软推广OpenAI的经济依赖模式

起诉书指出，作为OpenAI的最重要合作者，微软在推广OpenAI产品的过程中起到了至关重要的作用，但与此同时，也大幅加速了潜在风险的扩散。尽管GPT的最新版本GPT-4不久之前才正式发布，但微软就已经积极将其集成到了从学术到医疗的各领域核心产品当中。这样的集成让OpenAI的产品触达的用户数量暴涨，同时也大幅扩大了风险。然而，微软不但没有对这种风险引起足够的重视，反而解雇了负责确保伦理AI原则的团队。而当其他的AI开发商目睹了OpenAI和微软的“成功”之后，也纷纷加以效防。在这种情况下，相关风险达到了前所未有的高度。

AI的最主要风险

在对“美国的AI发展”进行了回顾之后，起诉书进一步列出了当前情况之下存在的最主要风险。这些风险包括：

（1）大规模侵犯隐私的行为

被告对用户个人信息的大规模收集和跟踪构成了对用户隐私和安全的巨大威胁。这些信息可能被用于身份盗窃、金融欺诈、敲诈勒索等恶意目的。

这里尤其值得指出的是，OpenAI没有尊重用户的“被遗忘权”（righttobeforgotten），即用户删除自己个人数据的权利。虽然OpenAI表面上允许用户要求删除自己的相关数据，但事实上，这个删除选项可能是虚假的。一些公司禁止或限制ChatGPT的使用，也因为他们担心所有上传到像OpenAI的Chat－GPT或谷歌的Bard这样的AI平台的内容将被存储在这些公司的服务器上，从而无法访问或删除这些信息。

（2）AI引发的虚假信息宣传、有针对性的攻击、性犯罪和偏见

起诉书指出，包括ChatGPT在内的被告产品存在着严重的产品缺陷，即会产生各种虚假的信息。一个典型的例子是ChatGPT编造的关于乔治·华盛顿大学法学教授乔纳森·特利（JonathanTurley）性骚扰的谣言。不久前，加州大学洛杉矶分校的法学教授尤金·沃洛克（EugeneVolokh）为研究AI生成内容的法学问题而进行了一项测试：他要求ChatGPT生成一份“曾对他人进行过性骚扰的法律学者”的名单。为了确保生成的内容是真实的，他还专门要求ChatGPT对生成的内容标明信息出处。当沃洛克阅读这份名单时，他发现特利的名字赫然在列。根据ChatGPT的描述，特利曾在一次去阿拉斯加的班级旅行中发表了具有性暗示的言论，并尝试对一名学生进行猥亵。沃洛克对此大为震惊，毕竟作为著名教授，特利也是圈内响当当的人物，而作为同行，他竟完全没有听过这个圈内的“大瓜”。于是，他立即对该消息进行了确认。结果发现，此事根本是子虚乌有，特利根本没有去参加过什么班级旅行，也更没有进行过什么性骚扰的活动。在沃洛克向媒体公布了这个消息后，“人在家中坐，‘锅’从天上来”的特利才知道了自己竟然被ChatGPT描述为了一名性骚扰者。他对此非常不满，在接受采访时，他说道：“这真令人不寒而栗！这种莫须有的指控是非常有害的。”

起诉书还指出，除了传播错误信息外，被告的产品还可能被犯罪分子应用于骚扰、勒索、敲诈、胁迫、诈骗等犯罪活动。例如，现在出现了一种新型的“性骚扰”形式，通过社交媒体获得的私人照片和视频，以创建含有色情内容的深度伪造（deepfake）内容。这些照片在网上的公开传播，对受害人的情绪和心理造成了严重的伤害。

这里尤其需要重视的是，被告的产品还被用于儿童色情。例如，有一些恋童癖者使用Dall-E，以非常低的成本创造出了大量儿童性行为的图片和视频，并将它们在暗网上大肆传播。这些行为都造成了相当严重的后果。

此外，起诉书还指出，被告的产品，如ChatGPT等还促进了憎恨和偏见的传播。这是因为，语言模型是基于现实的语料训练而成的，其中就包含了大量涉及憎恨和偏见的内容。被告在训练模型时，并没有注意排除这些信息，因而就导致了模型本身存在着缺陷。

（3）帮助构建超强恶意软件

起诉书指出，被告的产品还为恶意软件的创建提供了强力支持。所谓恶意软件（Malware），指的是旨在破坏或渗透计算机系统的计算机程序。过去十年中，恶意软件变得越来越复杂，越来越难以检测。

被告的产品可以以很低的成本生成几乎不可检测的恶意软件，并且可以大规模使用，对全球的网络安全构成前所未有的风险。尽管OpenAI方面声称有禁止生成多态恶意软件的安全防护措施，但实际上恶意软件开发人员可以通过巧妙的输入绕过这些过滤器。据此，原告律师认为，将这种增强的破坏能力交给大众，但又缺乏必要的安全防护措施应当被视为是被告的严重过失行为。

（4）自主武器

所谓自主武器（AutonomousWeapons），也被称为“杀戮机器人”（Slaughterbots）、“致命自主武器系统”（lethalautonomousweaponssystems），或“杀手机器人”（killerrobots），它利用AI识别、选择，并在无需干预的情况下以杀死人类为目标，从而对国际安全和人权构成了严重的威胁。

起诉书指出，目前这种未受监管的AI风险已经不再遥不可及，而是正在成为一种现实的风险，例如它曾差一点就刺杀了一名外国元首（注：起诉书没有对这起事件进行说明。笔者猜测，它指的应该是委内瑞拉总统尼古拉斯·马杜罗在演讲时遭遇无人机攻击一事）。而要建造和使用这样的杀人武器，其成本和难度都非常低。

专家警告称，由于在不断提升人工智能能力的同时，缺乏足够的道德和伦理规范，因此类似技术的进展将加速自主武器的发展，而对这些产品的大规模商业化则会加速风险的传播和扩散。

被告对原告财产权和隐私权的侵犯

在列举了被告的产品可能造成的各种重大风险之后，起诉书着重对被告侵犯隐私权和财产权的问题进行了陈述。

（1）被告的爬取数据应当被视为盗窃

起诉书认为，被告在未经同意的前提下，秘密对互联网进行的大规模抓取本质上是一种盗窃和挪用行为。

为了对被告的行为性质进行说明，原告律师将其和2020年的ClearviewAI事件进行了类比。ClearviewAI是一家人脸识别公司，为了开发其产品，在未征得用户同意的情况下，从各种网站和社交媒体平台上抓取了数十亿张公开的照片。在其行为被《纽约时报》公开后，立即引发了公众的不安。2020年3月，伊利诺伊州的美国公民自由联盟，以及佛蒙特州的检察官几乎在同时对ClearviewAI提起了诉讼。英国、意大利、澳大利亚等国的监管部门也陆续对ClearviewAI展开了调查，并先后对其作出了数额不等的罚款。

原告律师认为，现在OpenAI的违规数据搜集行为在性质上是和ClearviewAI十分类似的，因而也应该被视为非法。

（2）被告行为对原告财产权益的侵犯

起诉书指出，在过去的案例当中，法院已经确立了互联网用户对其个人信息和数据拥有财产权益的原则，因此，OpenAI的非法抓取数据行为首先就对原告的财产权益构成了侵犯。在数据市场上，一个互联网用户的信息价值在15美元到40美元之间，甚至更多。另外有调查表明，一个人的在线身份在暗网上可以以1200美元的价格出售。如果按照此估价，OpenAI非法侵犯的财产价值将是十分惊人的。

（3）被告行为对原告隐私权益的侵犯

除了财产权利之外，互联网用户对个人信息拥有隐私权利，即使这些信息已经发布在网络上。因此，被告的非法爬取行为也对原告的隐私权益构成了侵犯。

起诉书指出，通过对数据进行聚合和分析可以揭示个人不愿被公开的信息。比如，通过个人公开的推文，可以分析出他的心理健康状况。因此，即使只有少量的“公开”私人信息，也足以损害互联网用户的隐私权益。除此之外，起诉书还指出，用户在网上发表言论时通常会预期这些内容不会被太多人看到，并且随着时间的流逝其影响还会日渐消退。但被告的行为却打破了用户的这种预期，从而对他们的利益造成了侵犯。

（4）被告商业行为对理性人的冒犯及对监管机构警告的无视

起诉书指出，现在的公众对被告如何使用和可能滥用他们的个人信息感到恐惧和焦虑。人们担心自己的个人信息会被永远嵌入到被告的产品当中，从而被反复访问、共享和滥用。

此外，起诉书还指出，现在的监管机构已经对类似的非法行为进行了警告，例如联邦贸易委员会就曾在一起针对亚马逊的案件中提到：“机器学习不是违法的借口……用来改进算法的数据必须合法收集和保留。公司最好汲取这一教训。”然而，被告显然并没有对这个警告引起充分的重视。

（5）被告在超出合理同意的情况下窃取用户数据

除了直接在网络上抓取信息外，被告还对用户使用ChatGPT等产品的过程中产生的数据进行搜集。在起诉书中，将其称为第二类盗窃行为。具体来说，这有两种表现：一方面，对于那些使用ChatGPT插件或API的消费者来说，各个网站并没有提供任何知情同意信息，消费者的信息和个人数据在这种情况下被违规搜集并被用于了训练被告的大模型。另一方面，即使是那些注册了OpenAI账户，并与ChatGPT直接互动的人在其数据被搜集之前，也没有得到告知。

除此之外，被告还告知用户可以要求不使用他们的私人信息，但实际上，他们并无法从语言模型的知识库中删除已收集的数据。同时，被告也无法向用户提供数据使用的状况，因而其行为严重违反了透明度原则。

被告对儿童权益的侵犯

在陈述了被告对原告造成的财产权侵害和隐私权侵害之后，起诉书还着重强调了其对儿童的隐私和风险带来的危害。具体来说，这包含如下几个方面：

一是在未经同意的情况下对儿童进行欺骗性的追踪。起诉书指出，被告违规搜集了大量关于儿童的敏感信息，包括身份、位置、兴趣和关系等。

二是OpenAI在服务条款和隐私政策中明确指出ChatGPT的使用对象是十三岁及以上的个人，但在现实中，平台并没有设置验证机制，未成年用户可以很容易通过虚报年龄来获得使用资格。而被告的这个疏漏，会把这些未成年用户置于有害信息的曝露之下。

三是被告对儿童用户的经济价值进行了剥夺。起诉书指出，相比于成人，儿童更容易在诱导之下出卖自己和其他人的各种信息，这使得被告可以通过儿童获得更高价值的数据，并将其用于营利用途。

四是被告侵犯了合理的隐私预期，并具有冒犯性。起诉书指出，家长抚养和监护子女的权利是基本的自由权益。因此，被告在儿童隐私问题上存在的问题其实也是侵犯了家长对于隐私保护的合理预期，这不仅违法，也严重冲击社会规范和道德。