从“流量之争”到“数据之争” 银行业如何打破数据孤岛?

胡群2021-11-25 17:45

胡群/文 金融AI的每一步,大数据红利在左,数据隐私安全在右。

“金融机构简单将线下业务迁移到线上所带来的红利正逐渐消失,竞争悄然从互联网时代‘流量之争’转变为以数据要素 作为差异化发展的‘数据之争’。”11月23日,中国工商银行金融科技联合华控清交信息科技(北京)有限公司发布的《隐私计算推动金融业数据生态建设白皮书》(以下简称《白皮书》)指出,数据融合趋势日盛,安全保护呼声渐涨。作为有效解决计算过程中数据隐私保护问题的技术手段之一,隐私计算技术受到市场广泛青睐并蓬勃发展。隐私计算核心优势是分离数据所有权和使用权,开创 “数据特定用途使用权流通”新范式。

“中国的大数据分布在一个又一个的数据孤岛里,要精准地为全体中国消费者打破信息不对称,依靠某个数据孤岛不行,需要整合各个数据孤岛。从大数据应用行业分布情况来看,金融、政府和通信是大数据领域投入最多的行业,这三个行业贡献了2020年中国大数据市场38%的规模。”睿智科技董事长陈建称。

释放数据潜能

中国正迈进数字经济。中国信通院发布的《中国数字经济发展白皮书》显示,2020年我国数字经济规模规模达到39.2万亿元,占GDP比重为38.6%,已成为国民经济的核心增长极之一。2021年,中国数字经济规模有望突破40万亿元。

中国金融机构数字化转型加快。银保监会数据统计,2020年银行机构信息科技资金总投入为2078亿元,同比增长20%。此外,银行科技投入占营业收入比重从2%向3%靠近,部分银行科技投入占比甚至超过了4%。Gartner预计,2024年中国企业IT支出规模将达到2912亿美元,年均增速6.04%。其中,银行业IT投入居于各行业前列,预计到2024年将达到431亿美元,年均增速5.29%。

“数据已成为金融数字化转型的基础性、战略性资源。”中国人民银行副行长范一飞发表在《金融电子化》2021年10月刊上文章显示,从“千人千面”的创新产品设计到“一人一策”的金融服务模式,从“去芜存菁”的业务流程优化到“除险保安”的风险安全防控,金融创新发展始终离不开数据的有力支撑。金融机构要高度重视数据工作,充分释放数据潜能,点燃金融数字化转型的“数据引擎”。

然而,数据要素广泛分布于银行、互联网公司、政府部门等众多机构中,它们都有隐私和安全的需求,要释放数据潜能并不容易。

11月1日,《中华人民共和国个人信息保护法》(以下简称《个人信息保护法》)正式生效,与《民法典》、《网络安全法》、《数据安全法》、《电子商务法》、《消费者权益保护法》等法律共同组成一张公民个人信息保护网。作为业务链路长而复杂,业务覆盖零售、公司、金融市场、风险管理等,沉淀了大量的复杂数据资产的机构,商业银行受到《个人信息保护法》的重要影响,而助力银行数字化转型的金融科技公司也格外关注法律对技术及业务的影响。

11月3日,中国人民银行行长易纲在2021年香港金融科技周上的视频演讲中称,中国人民银行一直高度重视金融领域的个人信息保护工作,2005年以来在反洗钱、消费者权益保护和征信等领域陆续出台了个人信息保护相关制度。近年来,着力治理金融活动中对个人信息的过度收集现象,以及不同意提供个人信息就无法获取服务的“霸王条款”。同时,督促提供金融服务的各类机构严格按照合法、正当、最小必要原则收集、使用和保管客户信息,规范机构内部为商业目的使用个人信息的行为,充分保障消费者隐私和合法权益。未来,中国人民银行会进一步完善金融领域个人信息保护的法律制度,并加大对个人信息保护的监管力度。

《白皮书》显示,当前,较多金融机构或集团仍未实现数据集中,致使客户数据散落于不同系统、业务部门或法人机构,亟待破解生态内外“数据孤岛”问题。特别是对于交叉营销,受数据来源限制,金融机构无法准确、全面、实时分析客户需求及行为偏好,被迫采取“广而告知”的传统营销方式, 让客户依据自身需求选择产品。此类被动营销服务模式的用户体验欠佳,金融产品营销和服务效果有待提升。

陈建表示,打通数据孤岛、通过虚拟整合数据方式实现对消费者信贷风险的精准评价,金融机构可以决定是否为他们提供金融产品支持,从而可以有效促进金融需求和供给实现平衡,为金融普惠的实现打下了坚实的基础。新一代的技术模式实现了大数据的生产力和数据隐私保护之间的隔离与融合,受到了行业的肯定。目前,比较主流的方式是将数据在不落地、不留痕、不存储、不传输的基础上进行虚拟整合,既充分发挥数据的生产力,又能保护消费者隐私,充分实现数据的可用不可见。

隐私计算破解难题

“数据融合需求日益迫切,保障数据要素持有者权益是实 现数据要素有效开发利用的关键。然而,传统隐私保护技术无法保护数据在计算过程中的隐私安全,难以保障数据要素持有者权益不受损害。”《白皮书》显示,隐私计算技术因能在保护数据隐私同 时开发利用数据价值,备受各界广泛关注。当前,行业重点探索的隐私计算技术包括多方安全计算( Secure Multi-Party Computation,MPC)、联邦学习(Federated Learning,FL )、可信执行环境 (Trusted Execution Environment,TEE)等。

国外隐私计算金融应用目前尚处于试点阶段。长期以来,北美、欧洲金融监管严格,金融机构对新技术引进尤为审慎。同时,相关行业标准及监管规则尚不明晰,导致隐私计算技术在当地金融领域落地相对滞缓。国内隐私计算金融应用领先国际。在顶层设计推动下, 我国互联网企业、科技公司及金融机构近年来相继研发多款 成型隐私计算产品,相关产品呈现平台化发展趋势,技术组合应用日益明显。国内示范场景已包含授信风控、产品营销、 移动支付人脸识别、跨境结算、反洗钱等,其应用范围较国外更加广泛、多元。

“隐私计算是把围绕数据的AI、大数据处理和加密等几种技术处理手段进行了综合应用,也让数据生态中的数据高效、有序、合规流动成为可能,在过程中实现金融机构与运营商或政府等机构数据、场景数据、同业等各类数据源的安全流动。”蓝象智联创始人兼CEO徐敏称,例如新网银行和银联数据通过蓝象多方安全技术来让金融机构间查询贷款客户的多头信息,无论是查询方的客户信息、还是被查询方的多头信息都没有明文出域。

“作为加密的分布式机器学习范式,联邦学习使得各个仅拥有少量数据的参与方之间可以协同来完成一个模型的训练,训练出的模型是基于所有参与方的数据达到的效果,优于他们各自独立建模的结果,而参与方之间不泄露各自的原始数据。”索信达AI创新中心数据科学家邵俊博士称,对于正在全力推进数字化转型的金融业来说,数据的价值毋庸置疑。但AI技术在金融行业的应用落地,以及在金融行业大数据分析应用的过程中面临着两大挑战:一方面,金融客户拥有的数据难以聚沙成塔取长补短,数据孤岛现象普遍存在;另一方面就是数据隐私与安全问题。而“联邦学习”成为一种解决金融数据壁垒和隐私保护的有效之道。

邵俊举例表示,在银行风控场景中,各家银行拥有不同的客户样本数据,且数据量有限,如果仅仅基于自身的数据来训练模型,受样本规模的限制,模型效果难以达到预期。如果能将各家数据聚合来训练,则可以大幅提升模型精度。然而出于机构间的竞争以及对数据隐私的要求,银行不可能将自身的客户数据向任何第三方发布,直接将各家数据聚合到一起建模是行不通的。因此,联邦学习技术应运而生,让金融机构在不泄露自身原始数据的情形下,共同训练机器学习模型提供了可能。

虽然隐私计算正在金融机构领域蓬勃发展,但主要集中在银行业。北京金融科技产业联盟、成方金融信息技术服务有限公司联合中国农业银行发布的《隐私计算金融应用调研报告》调查,共收到30家机构的有效问卷,其中15家为金融机 构(包括银行、保险、证券、第三方支付机构等),15家从事金 融科技服务的科技公司。根据调查情况,科技公司提供的隐私技术产品,主要应用于银行业。

该报告显示,金融机构的隐私计算产品研发团队规模以1-10人区间居多, 占比为60%,团队规模在100人以上的占比仅为7%。而 科技公司则以51-100人规模居多,50人以上规模占比为 50%。 整体而言,科技公司的隐私计算研发团队规模明显超过金融机构,表明科技公司在隐私计算相关研发人才投入上力度更大。

更为关键的是,科技公司在各个场景应用程度比金融机构要更加成熟,该报告认为,一方面是隐私计算技术新兴程度高,科技公司作为技术供应方对隐私计算技术的探索应用相对积极。另一方面是金融机构在安全性和合规性方面要求更为严格,符合行业相关要求后才推进新技术场景应用。金融机构比科技公司认为面临的挑战更多,但一 致认为相比于人力、运营、研发成本等,目前更多的挑战来源于技术、数据、标准、规则法规等。

算力挑战

“从2014年起,金融行业三个主要引擎级变革驱动力分别是计算、场景和数据。”徐敏称。

当前处于从前沿研究逐渐向金融生产系统落地的关键时期,隐私计算当前所面临的算力挑战也尤为值得关注。运用于金融级的隐私计算,势必会面临跨行业、大规模、多模态的数据处理任务,最大程度扩展计算能力,解决性能和通信瓶颈是隐私计算加速落地首要任务之一。

《白皮书》显示,多方安全计算涉及用密文转换、密文计算、密文交换等技术环节,算力需求大、处理耗时长,近年来其计算性能虽已大幅度提升,仅达到明文计算性能的1/100-1/10。联邦学习在采用不同方法训练模型、保护中间参数时,性能存在差异,目前业内普遍采用的同态加密等密码学方法交换参数会引起性能下降。可信执行环境将密文在硬件环境内解密后计算, 性能相比纯密文计算更快,但逊于明文计算,性能主要受限于存储空间的算力支持水平。差分隐私和数据脱敏技术一般由单个参与方完成数据处理,当前性能相对最高。

“联邦学习还有一些其他比如数据传输效率的问题。模型训练会涉及到大量的运算,各方联合建模就会涉及到大量的数据进行交互的问题。比如像在梯度下降的时候,每一步的梯度迭代都会涉及到通信成本。因此,通信效率是联邦学习在落地过程中会遇到的挑战。此外,还有像机构与机构之间样本分布不均衡的问题等等。”邵俊称,联邦学习的应用落地还需要一个过程,无论从技术上还是行业生态上,都还有一些难度,需要业界不断加码投入,推动联邦学习技术的进步和在产业生态的落地。

星云Clustar基于研发团队在高性能算力、智能网络加速等领域的积累,以及对隐私计算性能优化的深入研究,推出了业界首款异构算力加速方案,以单节点的算力优化和多节点的通信优化解决隐私计算的计算压力与时延问题,实现50-70倍的算力提升,为隐私计算大规模落地场景赋能创造空间。

“星云Clustar希望成为隐私计算生态的算力提供者。我们不仅在积极与金融、政务的行业客户进行合作,同时也会为云厂商、同行业合作伙伴开放算力服务,共同促进高性能隐私计算的产业落地,实现安全、有序、高效的数据流通。”星云Clustar方面表示,生态上,星云Clustar乐于与各界合作伙伴深度合作,以高性能算力深化隐私计算产品及服务易用性、可用性,进一步拓展隐私计算在联合风控、联合营销、数据要素流通、银企融资对接等各细分领域的场景落地能力,共同探索数据高效连接、流通、应用机制,构建起面向未来的数据智能“新基建”,助力产业基于数据驱动的数智化转型。

版权声明:以上内容为《经济观察报》社原创作品,版权归《经济观察报》社所有。未经《经济观察报》社授权,严禁转载或镜像,否则将依法追究相关行为主体的法律责任。版权合作请致电:【010-60910566-1260】。
金融市场主任
主要关注银行、信托、fintech领域市场动态。
Baidu
map