杨强：隐私计算为何要开源？

胡群2022-05-20 18:45

记者胡群 “如果隐私计算和联邦学习技术只是掌握在少数寡头的手里，我们还是得不到真正的数据流通，也得不到真正的数字经济发展，因此必须把门槛降低，其中一个有效手段就是开源，能够让人人都可以使用这样的技术，人人都能贡献到这样的技术。”杨强说。

杨强是香港科技大学计算机与工程系讲席教授、FATE开源社区技术指导委员会主席，今年4月，他又有了一个新身份——开放群岛（ Open Islands）开源社区执行主席。

开放群岛(Open Islands)是由深圳数据交易有限公司联合国家智库、国家单位、高校、大型金融机构、大型互联网公司等多家发起单位牵头成立的国内首个国际化自主可控隐私计算开源社区。

随着数字经济的发展，数据已成为数字经济基本的生存要素，而数据的安全高效可信可控流动则变得异常重要，隐私计算恰逢其时。5月11日，IDC发布消息称，隐私保护计算入选《IDCTechScape：全球行业生态使能技术，2022》报告“变革型”技术曲线。同时入选的还有DAOs、区块链、多接入边缘计算等共六项技术。

IDC调研发现，2021中国隐私计算市场规模突破8.6亿元人民币大关。从收入形态而言，市场收入主要来源于产品售卖或平台建设方面，大量技术服务商的营收规模仍然处于亿级以下水平。

如何看待国内日渐火热的隐私计算，为何要推动隐私计算开源，杨强接受了记者的专访。

杨强表示，要保证数据的安全性，开源和透明是很好的方法，因为一个平台是否有漏洞、后门，都会透明地打开给所有人看，大家都来观察、督查，如有问题，大家会打补丁、必须把门槛降低。

观望冷静期

：近年隐私计算概念较火，很多创业公司已获得数轮融资，在金融领域中，多家大中型银行也发布相关白皮书或研究报告，但成熟应用案例并不多，这是什么原因？

杨强：首先我们要肯定资本市场积极支持隐私计算行业，并且真的是自己掏钱来支持是非常可喜的。同时很多技术人才投身其中，也是非常值得钦佩的。如果按照高德纳（Gartner）技术成熟曲线，当前隐私计算已经历初始的繁荣期，但现在是在一个比较观望和冷静的时期，大家有各种各样的技术方案，却发现在需求方没有想象的那么热烈。但我相信，市场需求方的热烈时刻不久就会到来，这基于两个先决条件。

一是国内正在积极推动的数字经济和数据要素市场。今年一月份，国务院办公厅印发《要素市场化配置综合改革试点总体方案》提到，探索“原始数据不出域、数据可用不可见”的交易范式，在保护个人隐私和确保数据安全的前提下，分级分类、分步有序推动部分领域数据流通应用。3月，《广东省数字政府改革建设2022年工作要点》提出，探索运用区块链、隐私计算等新技术强化数据安全防护。

二是疫情倒逼很多公司开展线上化业务，催生出很多数字化机会。如果一个公司仅仅关注自己的技术而不去关注市场的走向、别人的需求，那么它往往会做出一些很高端的软件，但使用者却少之又少，我觉得这个现象并不奇怪。我们参考一下过去AI和互联网，包括云计算技术等等，我们都看到这样一种从激情走向理智的过程，现在隐私计算正在经历这样一个过程。

：为何隐私计算会成为互联网、金融等行业热门的技术？

杨强：在过去几年里，我们见证了机器学习在人工智能应用中迅猛发展，但机器学习需要很大的数据量训练才能达到满意的性能水平，而高质量、大数量的训练数据很难获得，我们不得不面对难以桥接的数据孤岛。

身处“数据时代”，如何有效挖掘数据中蕴藏的智能而不侵害数据本身的隐私和安全，是我们推动社会进步和生产力发展需要共同思考和实践的课题。隐私计算的本质就是在实现“数据可用不可见”这一目标的过程中产生的一系列理论和技术。

从二十世纪七八十年代诞生的基于隐藏部分信息来保护数据隐私的安全多方计算理论，到近年来围绕“数据不动模型动”理念发明的联邦学习技术、隐私计算的发展已历经40多年。随着人工智能在各行业的应用落地，人们对于用户隐私和数据安全的关注度不断提高。用户开始更加关注他们的隐私信息是否未经许可，便被他人出于商业或其他目的而利用，甚至滥用。因此在欧美国家，互联网机构率先使用隐私计算技术。而在中国，近年随着《网络安全法》《数据安全法》和《个人信息保护法》相关法律法规的进一步实施，已有很多互联网、金融机构等企业由于泄露用户数据而被重罚。

如何在遵守更加严格的、新的隐私保护条例的前提下，解决数据碎片化和数据隔离的问题，是当前人工智能研究者和实践者面临的首要问题。倘若不能很好地解决这一问题，人工智能很有可能面临新一轮的寒冬。

在金融领域，一方面为了准确衡量一个用户的资质，金融机构需要广泛地利用各种数据，包括消费数据、工作数据和投资数据等，而这些数据往往分散在不同的机构中，例如工作单位、电商平台、社交网络和投资机构等；另一方面，对于金融机构，政府部门有着格外严格的数据安全监管，想要直接收集大量用户的数据是不可行的。近年由于互联网、金融等行业大规模应用隐私计算，使得隐私计算获得了指数级的增长。

但是，隐私计算不会在所有市场中同时获得高速发展，我们看到目前国内除互联网、金融行业外，智能终端如手机厂商特别有兴趣引入隐私计算，并纷纷建立团队做隐私计算，其中一个很大的动力在于它们的智能终端设备要进入欧美市场，要符合当地的法律法规。

开源与产业生态

：为何要推动隐私计算开源？

杨强：隐私计算、联邦学习这些新技术主要的思想是数据可用而不可见，并且可控可计量、数据不出本地而知识可以出本地，但是知识也不曝露数据的隐私。就是我们所说的鱼和熊掌其实可以兼得，如果我们把技术做好了就可以得到这样的效果。

如果要得到这样的效果还需要开源技术的发展。如果隐私计算和联邦学习技术只是掌握在少数寡头的手里，我们还是得不到真正的数据流通，也得不到真正的数字经济发展，因此必须把这个门槛降低，其中一个有效手段就是开源，能够让人人都可以使用这样的技术，人人都能贡献到这样的技术。

在隐私计算、联邦学习的“商业化大网”中，安全、效率、有效性、普惠是纬线，开源生态主导的技术迭代与场景普及是经线。目前联邦学习的算法更新迭代主要来自两个动力：一是人工智能和隐私计算领域的大量研究，科研机构、人员不断研究新情况、新漏洞和新算法，产出更多科研成果。同时，国际间的交流积极活跃，全球一流科研人员的汇集，成为技术发展的动力。

第二个动力是开源社区的建设。基于开源协作的形式，用户、生态伙伴等更多角色的参与，使得技术接受更多维度检验的同时，也能够建立起更加敏捷、全面的反应机制，随时响应安全风险，极大提高了软件算法的安全性与迭代效率。

：目前开源取得了什么效果？

杨强：开源促进了隐私计算的“普惠”与价值共生。以国内首个联邦学习开源社区FATE为例，FATE的开源开启了国内隐私计算技术的开源浪潮，是全球首个工业级联邦学习开源框架，有效降低了“联邦学习”的技术门槛，为很多2020年及之后出现的联邦学习产品的研发与应用提供了可靠的借鉴或参考。中国信通院调研统计显示，55%的国内隐私计算产品是基于或参考了开源项目，其中以FATE开源项目为主。FATE开源社区加速了联邦学习从“大厂”向小微B端企业的覆盖与普及的同时，让联邦学习产业生态及参与方从“单兵作战”走向生态化。

目前，开源已成为大势所趋，成为隐私计算产业生态核心组成部分。在FATE中，3000+的核心开发者通过社区能快速获取有关如何解决业务问题的建议，并采用FATE开源框架及其30余个算法组件，搭建自身技术栈，利用社区的合力，让技术的鲁棒性、适配性、完整性得到全面的提升。而社区的维护者、开发者又能够基于用户实际业务的需求，进一步反哺技术与项目的迭代，价值共生。

联邦学习、FATE开源框架在保护数据安全方面的作用已经在大量实际应用中得到验证，且运用成熟。现阶段，在多方数据合作的实际业务场景中，安全已不再是最大顾虑；重点转向效率与有效性，或者说是如何在安全、效率、有效性间取得平衡：即在安全可靠的前提下，使效率与有效性最大化。在此背景下，我们提出了兼顾安全、效率、性能、可解释性、普惠等方面的“可信联邦学习” ，首次将安全、性能，效率等要素统一在共同的理论框架下。

互联互通，建立标准

：如果隐私计算要在场景中广泛落地，还面临哪些障碍？

杨强：首先，我们一开始更多地强调隐私计算使用的是哪一项技术，而不是特别关心要达到什么目的，所以可能一开始有点跑偏了。比如有些厂商特别强调隐私计算要使用多方计算才安全，使用其他的一些技术就不安全。其实事实不是这样的，就好像在盖一个房子一样，任何一个技术其实只是一块砖头，如何把这个房子建好考验的是我们对整体技术的把控，而不是一块砖头的软硬决定整个房子的安全性。联邦学习是把这些砖有机地结合起来，成为一个房子的设计方案。这个方案并不排斥任何一方的参与，我们管这个技术叫做可信联邦学习或者可信隐私计算。

其次，随着隐私保护和合理使用用户数据的法律法规取得了越来越多的进展，制定隐私保护的标准显得愈加重要。比如A金融机构用的是一类技术，B用的是另一类技术，C可能是大数据公司，用的第三类技术。当大家想互联互通的时候，却发现这些技术之间很难沟通，所以现在提出统一大市场非常及时。

隐私计算要按照一个标准搭建、按照一个标准设计，最后大家各自的方案都可以在一个标准下很容易地互通互联。因此，我们在今年FATE社区里面提出一个重要的口号就是互通互联，要促进各大厂商好几十个不同的方案，非常非常难互通，我们要在这方面比别人多走一步，要让他们的这些技术都能够很容易地连接起来。

然后，还需要建立标准，我们也在国际上建立了一个初始标准，国内在信通院的领导下也建立了很多的标准。但这些标准还远远不够，更好的标准是能够把技术和监管要求和法律连接起来，这样的标准才是有用的标准，我们现在还缺乏这样一种相互连接的标准。如果一个技术被认为满足一个标准，那么它就可以合法使用，现在还没有达到这样一个目的，所以这是我接下来特别想推动的，就是把法律界、标准界、政府和技术开发人员请到一个桌子上让大家讨论，并达成共识。

第三，现在大家谈的都是数据，但是我认为未来的世界是模型的世界，当数据都不能出本地，流通知识的唯一载体就是模型。因此，可以想像以后不管是数据交易所还是业务的多方合作，流通的实体就是模型，所以模型的管理和模监管是非常重要的。