(原标题:千亿市场想象空间:联邦学习商业化起步)
用户信息和数据泄露愈演愈烈。中国信息通信研究院安全所信息安全部主任魏薇曾说,2020年全球数据泄露的数量超过过去15年的总和。
公众记忆犹新的案例是,Facebook与剑桥分析公司(Cambridge Analytica)的合作,导致5000万用户隐私信息泄露,市值因此一夜间蒸发360亿美元。
全球监管部门在保护用户隐私、打击信息泄露方面政策频出,处罚措施也越来越严厉。一些企业被开出高额罚单,一些企业运营的APP因侵犯用户隐私、泄露用户信息等原因被迫下架。
横空出世的联邦学习技术,具有隐私保护、打破数据孤岛等诸多优点,被各家金融机构、互联网巨头等寄予厚望,期待该技术能成为其践行合规、保障数据安全的利器。
联邦学习未来的商业化市场空间将达到千亿规模,尤其在金融、医疗、广告营销等领域的应用已逐渐铺开。但这项技术仍处于商业化起步阶段,行业标准仍有待完善,客户的接受程度不一,从业者正在艰难探索更好的商业模式。
一、什么是联邦学习?
联邦学习是一种加密的分布式机器学习技术,能够保障各参与方的自有数据不出本地,系统通过加密机制下的参数交换方式,在不违反数据隐私保护法规的情况下,打通数据孤岛。
图1:联邦学习基本原理
联邦学习的主要作用体现在两方面:
1、 隐私保护及信息安全
“联邦学习”的基本思想是建立一个虚拟的共有模型, 各个参与者的身份和地位相同,通过加密机制下的参数交换方式,实现不同企业、不同部门所拥有的数据不交换、不移动。在不违反数据隐私保护法律法规的前提下,虚拟模型利用全量数据进行训练和模型优化,从而得到最优模型结果。
联邦学习不需要将数据直接共享给第三方,从而保证了数据和隐私安全。
2、解决数据孤岛问题
由于安全问题、竞争关系和审批流程等因素,数据在企业间、甚至是在企业内部都是以“孤岛”的形式存在。
数据孤岛问题在政务数据中更加突出。尽管我国政府信息化建设已历经20多年,形成了相当完备的政府业务网和政府公众信息网,然而由于各自为政、标准不一等原因,造成各部门之间的数据始终缺乏有效整合,结果形成了一个个的“数据孤岛”,大量有价值的数据资源不能发挥更大作用。地方上投入巨额资金建设的信息系统,也因为数据彼此孤立,导致原本设计的诸多功能全无用武之地,形成另一种浪费。
在典型的深度学习过程中,必须要把原始数据集中在一起进行训练——这在新的法律体系下,变得越来越困难。如2017年实施的《中华人民共和国网络安全法》第四十二条规定:“网络运营者不得泄露、篡改、毁损其收集的个人信息;未经被收集者同意,不得向他人提供个人信息。但是,经过处理无法识别特定个人且不能复原的除外。”
数据孤岛是制约人工智能技术发展和落地的主要障碍,而联邦学习技术是解决数据开放共享中“数据孤岛”问题的关键技术之一。
二、行业现状
联邦学习首先由谷歌公司于2016年提出,至今不过五年时间。2018年由微众银行引入国内,恰好遇到隐私保护、信息安全监管趋严,该技术很快就得到各大互联网公司、科技巨头、人工智能公司重视。
据冰鉴科技研究院统计,阿里巴巴、腾讯、蚂蚁集团、微众银行、百度、京东(数科)、华为、小米、字节跳动等互联网巨头,以及冰鉴科技、富数科技等第三方人工智能公司都在将联邦学习技术应用于各个商业领域,如风控联合建模、广告获客、智慧医疗等。
除此之外,还出现一个集团内多家子公司在联邦学习领域进行布局,如阿里云与蚂蚁集团、京东集团与京东数科、腾讯与微众银行,百度与度小满等等,足见各家巨头对该技术的重视程度。各家公司纷纷发布联邦学习平台(如表1),将该技术运用到联合风控、车险定价、广告营销、AI医疗诊断、反洗钱、智慧城市等各个领域。
与此同时,行业协会及科研院所也加快各种标准制定,促进行业健康发展。
2020年7月9日,中国信息通信研究院联合十余家单位及企业制定了联邦学习技术标准——《基于联邦学习的数据流通产品技术要求与测试方法》,该标准规定了基于联邦学习的数据流通产品必要的技术要求及相应的测试方法,适用于基于联邦学习的数据流通产品的研发、测试、评估和验收等场景。
截至2021年7月,通过中国信息通信研究院“卓信大数据计划”联邦学习技术安全评估的平台仅12家。在国内,通过中国通信标准化协会测试是联邦学习商业化的第一步,通过该平台测试才能获得其他合作伙伴认可。
备注:“卓信大数据计划”是由中国信息通信研究院发起的数据安全领域政、产、学、研、法交流平台。该计划将构建包括基础设施、检测评估、人才培训、法律咨询、数据审计、宣贯宣传的数据安全治理方面的全要素生态。从构建数据安全基础设施、完善数据安全保障体系、探索数据安全应用创新三方面出发,为企业数据安全保驾护航。
在市场前景方面,联邦学习、多方安全计算、可信执行环境被认为是目前隐私计算领域三大主流技术,而隐私计算被国际调研机构Gartner认为是未来几年最热门的九大技术之一,到2025年将有一半的大型企业机构使用隐私计算技术,产值超过千亿元。
三、主要应用场景
需要大量使用第三方数据的领域,是联邦学习技术的用武之地。目前,联邦学习的应用场景与各家科技公司的主营收入密切相关,如依赖广告收入的字节跳动将联邦学习应用到营销获客方面,人工智能企业冰鉴科技将联邦学习应用到反洗钱、风控建模方面,商汤科技尝试将联邦学习应用于“AI+医疗”。
1、风控建模
金融机构在联合建模时,受到数据孤岛以及隐私保护的限制,难以有效汇集数据,从而影响风控模型的训练效果。联邦学习采用加密型分布式机器学习技术,不仅能有效打破数据孤岛并保障数据隐私,而且能开启远程操作,有效降低运营成本、快速迭代。
目前,典型代表包括京东数科Fedlearn平台、冰鉴科技冰盾联邦学习平台、微众银行FATE企业版联邦数据网络平台、蚂蚁链摩斯多方安全计算平台等。
据蚂蚁官网介绍,富民银行利用摩斯安全计算平台,和合作方实现了多方联合风控,在保证数据安全的同时,实现模型预测效能提升25%,有效降低了业务风险和不良资产率。
据冰鉴科技联邦学习技术负责人介绍,基于联邦学习系统的联合建模具有安全性高、大数据分析能力强、接入便捷、高效率和成本低等多项优势。冰鉴科技与南京银行合作的“基于多方安全计算的差异化营销平台”已入选央行“监管沙盒”试点。
2、反洗钱
在反洗钱领域,犯罪分子为了更加隐蔽地洗钱,会利用多家银行的账户走账。传统模式下,为了用户隐私保护和数据安全,各家银行只利用行内数据构建反洗钱模型,差强人意的效果导致很多金融机构被央行处罚。
据券商中国报道,近期央行反洗钱监管持续升级,包括银行、券商、保险公司、信托公司、支付机构以及其分支机构等在内的数十家金融机构因为反洗钱不力被罚,累计被罚金额超过3000万元。
如果利用联邦学习技术,就可以在符合监管要求的情况下,充分利用多家金融机构的数据,构建联邦学习反洗钱模型,识别洗钱账户的效果将会得到大幅提升。
3、营销获客
对于字节跳动、阿里巴巴等广告收入占比较高的平台,面临的最大挑战是,如何降低消费客户对广告的反感度,提高商家的广告转化率,吸引更多商家来其平台投放广告。
但广告中出现的个性化推荐,必然涉及数据隐私问题。无论售卖数据给第三方,还是从第三方直接获取数据,都可能面临隐私保护的法律合规问题。
据字节跳动介绍,与在线教育行业客户广告合作时,利用联邦学习技术,帮助教育客户正价课续报人数提升209%,获客成本降低11.7%。
此外,金融机构存量客户中存在大量流失客户或者休眠客户,需要进行二次转化。但是,单一银行内部数据不足、准确性不够,客户响应效果并不理想。通过联邦学习技术,充分利用外部运营商、支付机构等第三方数据联合建模,可以有效提高客户偏好精准预测。
图二:联邦学习用于联合建模
4、智慧医疗
钟南山院士近期在谈到新冠疫苗时说,:我们没有办法在中国做第三期临床试验,主要原因就是国内新冠病例太少,导致临床试验样本不够。
同理,“AI+医疗”商业化迟缓的一个重要原因是很难从一家医院收集到足够数量、高质量的病例数据。但是,医院之间的数据直接共享也涉及到用户隐私法律合规问题,特别是国家卫生健康委员会2018年7月颁布的《国家健康医疗大数据标准、安全和服务管理办法》。
联邦学习可以保证底层数据不出医院的情况下,共享各医院之间的诊疗数据,通过虚拟模型训练,提高医疗诊断的准确性。
四、商业化前景展望
肆意使用数据的野蛮增长时代已经结束。
越来越严格的监管政策,使得隐私保护、数据使用合规成为各类公司的巨大挑战。部分违规互联网平台轻则被罚、重则下架APP,上市暂停、股价腰斩的案例也屡见不鲜。
但隐私保护相关法律法规的陆续出台,既为联邦学习应用创造了市场需求,也为该技术的商业化起步打下了法律基础。
联邦学习相关的收入模式大致可分为两类:第一类是为金融机构等搭建基于联邦学习的风控平台,收取平台建设服务费或者软件服务费;第二类是在联合建模或搭建平台的基础上,按照业务量或运营效果向客户收取费用,也可称为分润模式。
然而在很多现实项目中,联邦学习只是作为整体解决方案的一个模块,并不能形成单独定价。第一类收入模式,定制化开发部署系统的成本高、毛利相对较低;联邦学习服务商更希望结合第二类分润模式,从客户实际运营中获得长期可持续的收入——这也是联邦学习或隐私计算技术未来的商业化方向。
联邦学习商业化的市场空间仍值得期待。如前文提到,Gartner预计到2025年,隐私计算技术产值超过千亿元。而根据毕马威与微众银行联合发布的《隐私计算行业研究报告》,中国隐私计算系统的销售和服务收入规模,在三年内有望触达100-200亿的市场空间;如果按照1%比例的分润模式来预估,仅2024年消费信贷平台的隐私计算相关收入规模也能达到1600亿。
冰鉴科技研究院认为,联邦学习作为隐私计算市场的一部分,其未来五年仍有千亿元的市场想象空间。
但就目前而言,联邦学习的商业化才刚刚起步,技术远未成熟,客户对该技术的理解和认知也还需要时间。联邦学习也并非万无一失,该技术需要模型梯度传递,但梯度也有可能泄露一些信息。在金融风控领域,模型的可解释性、规则简单性是监管机构非常关注的问题,这也会给技术的应用带来较大障碍。
在这种情况下,联邦学习相关的监管政策和技术标准还有待完善。客户对于如何证明技术的安全合理性仍存疑虑,2020年央行出台了第一份联邦学习相关的金融行业标准《多方安全计算金融应用技术规范》,但市场期待更多更完善的标准出台——为联邦学习的大规模商业化应用扫清障碍。
本文系未央网专栏作者:冰鉴科技研究院 发表,内容属作者个人观点,不代表网站观点,未经许可严禁转载,违者必究!