金融机构如何解决数据稀缺困局？

胡群2021-12-01 20:06

胡群/文 “完整的数据才更有价值，但是分布在多方的数据要联合计算，必须就数据规整的规则、格式以及计算规则达成共识，这也是保证数据可信交互的基础条件。单一企业/机构很难实现这一能力，需要联邦化或存在一个相对公正可信的中介。”12月1日，恒生电子在2021 LIGHT开发者云大会上正式发布的《2022金融科技趋势研究报告》（以下简称《报告》）显示，金融机构需要利用多维数据对需要贷款的客户做精准信用风险评估，但机构本身的客户数据维度可能不足，同时第三方合规数据获取困难，致使难以进行贷款评估。

《报告》认为，隐私计算产业已实现迸发式增长，各大科技和创新公司大量投入，隐私增强技术快速成熟，正进入规模化应用阶段，但在实际应用过程中遇到明显障碍，如部署和管理隐私增强计算需要相关能力和专业知识；数据和规则需要统一规范；数据定价和质量评估有困难；以及监管仍存在不确定性。未来，隐私增强技术将助力数据资产走向联邦化。

恒生电子执行总裁范径武表示，作为数智化赋能的重要知识成果，恒生电子基于理论研究和自身实践经验，联合证券信息技术研究发展中心（上海）、国泰君安证券、中金公司、中信建投证券、海通证券、广发证券、方正证券、光大证券、兴业证券、申万菱信基金等机构共同发布《报告》，旨在持续探索业务和技术的融合，加速金融行业数智化进程。

隐私计算挑战

金融AI的每一步，大数据红利在左，数据隐私安全在右。近年人工智能快速从感知智能迈向认知智能，并已与金融业务深度融合，赋能资管、客服、营销、运营、风控等诸多领域。数据要素广泛分布于银行、互联网公司、政府部门等众多机构中，它们都有隐私和安全的需求，要释放数据潜能并不容易。

11月1日，《个人信息保护法》正式生效，与《民法典》、《网络安全法》、《数据安全法》、《电子商务法》、《消费者权益保护法》等法律共同组成一张公民个人信息保护网。作为业务链路长而复杂，业务覆盖零售、公司、金融市场、风险管理等，沉淀了大量的复杂数据资产的机构，商业银行受到《个人信息保护法》的重要影响，而助力银行数字化转型的金融科技公司也格外关注法律对技术及业务的影响。

目前主流的隐私计算技术主要分为三大方向：一类是以多方安全计算为代表的基于密码学的隐私计算技术；一类是以联邦学习为代表的人工智能与隐私保护技术融合衍生的技术；还有一类是以可信执行环境为代表的基于可信硬件的隐私计算技术。

当前国外隐私计算金融应用目前尚处于试点阶段。我国在金融领域已完成顶层设计。2020年11月，中国人民银行正式发布首个隐私计算技术标准《多方安全计算金融应用技术规范》(JR/T 0196—2020)，并于2021年启动联邦学习等其它隐私计算技术金融应用类标准的研制工作。在顶层设计推动下，我国互联网企业、科技公司及金融机构近年来相继研发多款成型隐私计算产品。

北京金融科技产业联盟、成方金融信息技术服务有限公司联合中国农业银行发布的《隐私计算金融应用调研报告》调查显示，金融机构的隐私计算产品研发团队规模以1-10人区间居多，占比为60%，团队规模在100人以上的占比仅为7%。而科技公司则以51-100人规模居多，50人以上规模占比为 50%。整体而言，科技公司的隐私计算研发团队规模明显超过金融机构，表明科技公司在隐私计算相关研发人才投入上力度更大。

“隐私增强技术可以将大量以前无法共享的数据资产化进而使其可流通，具有创造新的商业模式的潜力，但是其成功落地需要对技术和业务都精通的复合型人才。”《报告》称。

毕马威的调研显示，隐私计算已成为金融科技企业关注的新兴技术，有47%的受访企业看好其未来在金融科技行业发挥积极作用。

“索信达面向金融行业推出自主研发的企业级联邦学习解决方案，采用区块链技术，在满足数据隐私安全和监管要求的前提下，让人工智能系统更加高效准确地共同使用各自数据的机器学习框架，助力金融机构实现更高效、安全和精准的模型训练。”索信达AI创新中心数据科学家邵俊博士表示，通过建立联盟链、区块链共识机制、设计合理的多方博弈机制、使用安全多方计算和同态加密技术等方式，解决传统联邦学习方案中存在的中心依赖、激励不足、单点欺诈、隐私泄露等痛点问题。

除银行风控场景之外，联邦学习还可广泛应用于智能营销、贷款、信用卡、保险、计算机视觉、医疗大数据等场景，通过存量客户经营、高效触达高价值客户、唤醒沉睡客户等，达到对客户全生命周期管理以及价值深挖。邵俊认为，只要是在大数据分析的场景中，在机构需要外部更多的数据，而遭遇数据隐私保护导致的数据流动不畅的情况下，联邦学习就可以派上用场，未来，联邦学习将会越来越多进入到商业实践当中。

然而，目前来看，隐私计算仍存在诸多挑战。

《报告》显示，机构可能依赖技术提供方的框架和算子库，将可能导致第三方风险。尤为严重的是，设计一个高效安全的多方交互需要对业务有足够的了解，这是一般技术公司所不具备的。由于多方计算过程中没有原生信息，用户难以验证数据质量，这将导致数据定价困难。虽然一系列法律法规在规范大数据应用，但目前监管尚未定义数据隐私边界，新方法可能被用于处理法律不允许的活动。

邵俊认为，联邦学习的应用落地还需要一个过程，无论从技术上还是行业生态上，都还有一些难度。一是设计激励机制。联邦系统是由多家机构共同协作完成，团队协作一定是在各方的利益都得到满足的时候才具备可行性，也就是根据每个参与方收益和贡献来进行分配利益，如何衡量每个参与方的贡献和收益？二是隐私保护的问题。即使传输一些模型中间数据比如梯度信息，而梯度信息的泄露还是会有原始数据被推导出来的风险。三是恶意攻击。如何保证联邦学习的每个参与方都是诚实的？不诚实的参与方又分为两种：一种是恶意的，一种是无恶意但是好奇的。恶意参与方可能会来对模型进行投毒，比如故意传输一些错误的数据来损害其他参与方的利益，而好奇的参与方不会去损害其他参与方的利益，但是会对所收集到的所有的交互数据进行分析，并试图推导其他各方的原始数据。

另外，联邦学习还有一些其他比如数据传输效率的问题。模型训练会涉及到大量的运算，各方联合建模就会涉及到大量的数据进行交互的问题。比如像在梯度下降的时候，每一步的梯度迭代都会涉及到通信成本。所以通信效率也是联邦学习在落地过程中会遇到的挑战。此外，还有像机构与机构之间样本分布不均衡的问题等。“这需要业界不断加码投入，推动联邦学习技术的进步和在产业生态的落地。”邵俊称。

小数据趋势

“随着金融领域AI需求增加的倒逼，AI算法将呈现多模态、低资源、小数据的发展趋势。”《报告》显示，AI自身能力持续进化，金融数据类型日趋丰富多样，同时金融领域的AI需求日益剧增，上述因素推动着工程化、多模化、低资源、小数据成为金融领域AI算法的大势所趋。通过多模态和低资源机器学习等关键核心技术，可以减少标注数据量，缩短AI研发周期，有效降低成本，提升用户体验。

《报告》引用《中国证券业发展报告》数据，共有81家证券公司开展了人工智能应用，涉及案例292个，应用范围覆盖八大业务领域，占比前三项为经纪业务（约占36.99%）、系统运维（约15.41%）、运营决策（约13.36%）等，其中应用需要多模块、低资源、小数据支持的场景包括：智能投研、智能问答（包括智能客服、智能外呼、智能IVR等）、智能运营等，可代替人工完成重复、规则、繁琐、流程化、低附加值的工作，帮助金融机构推动数智化、流程再造等。

“调研数据显示，银行业在金融科技的应用程度和推进数字化转型的进度方面平均得分高于资管业和保险业。”毕马威中国华东及华西区金融科技行业主管合伙人彭成初称，银行业对金融科技和数字化的应用程度分别为3.8和3.5，而资管业分别为2.9和2.7，保险业则均为2.8。

12月1日，麦肯锡发布《知易行难：探索券商数字化转型成功之路》报告显示，作为资本市场数字化转型主力军，证券公司等中介机构近年来持续加大科技投入，2017-2020年券商整体科技投入年均增长33%，科技投入占营业收入之比从4.2%上升到9.1%；第一梯队券商在科技投入上也超过同业平均水平，三年间科技投入年均增长近40%。

然而数字化投入的结果却令人喜忧参半。除了小部分成功先行者之外，许多券商都感觉自己在进行一场“军备竞赛”。为了赶超行业一流竞争对手，券商需要在人才、科技等方面进行大量前期投入；而受制于组织、能力与文化，这些举措的落地执行并不理想。即使成功建立起部分数字化业务，其经济效益也不及预期，这让多数资源受限的中小型券商在进行数字化决策时迟疑不决。麦肯锡全球调研显示，全球范围仅有16%的企业认为自己的数字化转型取得了持续成效。纵览众多国内券商的数字化转型实践，麦肯锡发现一些共性问题，如：只有“数字化”，没有“转型”；盲目跟风，数字化转型路径和节奏不清晰；从业务构想到数字化实现的传导走形；组织支撑体系不匹配，治理水平成为执行瓶颈等。

“就AI算法自身发展趋势而言，呈现多模态、低资源、小数据的趋势”。《报告》称，深度学习发展迅猛关键的因素是海量的数据支撑，但金融领域面临标注成本高，甚至无法采集、无数据的弊端，金融预训练模型+精调模式将成为未来小数据上的AI主流模式。