突破人工智能数据瓶颈，杨强详解联邦学习

作者: MobotStone | 来源:发表于2019-09-26 17:51 被阅读0次

突破人工智能数据瓶颈，杨强详解联邦学习
Apache Pulsar 在腾讯 Angel PowerFL
奔跑的人生
AI人工智能保障网络安全大显神威
隐私保护技术同态加密
隐私保护技术安全多方计算
人工智能：是商家的噱头，还是难逢的机遇？——《人工智能》小解读
人工智能引发失业的三大问题——《人工智能》小解读
2021年9月25日医学人工智能会议概要
学习毛笔字

人工智能的边界和挑战是什么?现在走到了哪里,又该向何处去?5月24日-25日在成都举办的CCF年度盛会——2019 CCF青年精英大会(YEF 2019)上,人工智能领域专家们展开了讨论,中国科学院张钹院士给出的答案是“人工智能刚刚起步,现在离起点不远,人工智能之路还很长,并且永远在路上。”

虽然人工智能技术的行业应用越来越广泛,仿佛真的站在风口准备拥抱下一场革命,但正如专家们所言,对于人工智能的发展,应该保持谨慎的乐观态度。当前人工智能还面临诸多挑战,例如数据孤岛问题、隐私保护问题、安全问题、如何从感知智能发展到认知智能再到更远的让机器拥有自我认知等等,突破这些瓶颈,或许才是人工智能走得更远的关键。

其中数据孤岛和隐私保护问题是当前人工智能大规模产业化应用过程中遇到的突出问题。对此,人工智能国际专家、微众银行***人工智能官杨强教授在大会上发表了题为《用户隐私,数据孤岛和联邦迁移学习》的特邀报告,他的答案是:开展新一代的人工智能算法研究,突破数据孤岛和小数据的限制,同时保护数据安全和用户隐私。这个答案的背后是一项新的领先全球的技术,叫做“联邦迁移学习。”

image.png

大数据时代并未真正到来,小数据和数据孤岛林立

杨强教授指出,人工智能发展离不开大数据,人工智能技术如果是火箭引擎,大数据就是燃料,但是数据量的激增并不意味着真正的“大数据”时代到来。多数行业中是数据质量不高的“小数据”,是一个个数据孤岛,数据割裂严重。

例如在法律领域,如果想得到一个非常好的样本,需要经历很长的链条,经过很长时间,有法官、律师等多方参与,才能把一个样本标注好,这导致有标注的高质量数据并不多,并且分散在各地的各级法院。而在医疗领域这种数据孤岛更加严重,例如医疗影像往往分散在各个医院。导致这种结果的原因很多,包括监管原因、机构各自的利益、流程制度限制等。

从迁移学习到联邦学习,打通数据孤岛

能否从技术角度寻求解决方案?作为国际人工智能界“迁移学习”(transfer learning)领域的发起人和带头人,杨强教授从迁移学习中找寻问题的答案,首先想到通过知识迁移解决“小数据”问题。如果面临的是“小数据”,就找到一个类似的“大数据”,举一反三,帮助只有小数据的任务运用来自其他相关任务的大数据,从而获得更好的表现,使得建立的模型能够更可靠,鲁棒性好,不受外界干扰,平稳运行,这在人工智能落地的应用上是非常重要的一个特性,同时也能够防止隐私泄露。这种从源领域迁移到目标领域的方式,在金融、工业、信息流推荐等领域都有应用,例如贷款风控策略在不同用户类别间的迁移、推荐系统中推荐策略迁移、舆情分析系统中的关键词迁移等。

image.png

虽然迁移学习可以有效解决“小数据”的问题,但是实际上现在面临的不仅仅是“小数据”的问题,而是“数据割裂”、“数据孤岛”。这不仅仅是技术的问题,不能通过简单的数据整合(Data integration)解决,而是要克服政策、监管、技术等多维度难题。此时“联邦学习”(Federated Learning)提供了新的思路,让多方参与,共同建模。

image.png

从联邦学习到联邦迁移学习,保护数据隐私

打通数据,共同建模,这本是一个美好的期望方向,但数据隐私保护的日益严格带来了严峻挑战,欧盟数据隐私保护法GDPR(The General Data Protection Regulation )作为“史上最严厉”的数据隐私保护法案成为一个信号,全世界都在加强数据隐私保护方面的立法建设,那么是否可以让联邦学习参与方只交换模型而不交换数据?让数据不出本地,从而保护数据隐私?据杨教授介绍,数学家们提供了新思路——将同态加密技术(Homomorphic Encryption,HE)融入联邦学习,其核心思想并不复杂,假设A加B是一个公式里的两项,对整个公式加密,那么HE就可以把它表达成对A的加密加上对B的加密。这样可以让参与方不上传数据,只上传加密的算法模型参数而进行共同建模,在这个过程中,即使通过多次交换,也不能重构出另一方的数据,真正实现数据不泄露。

在实际应用中,有基于同一特征维度,不同用户群体的“横向联邦”,例如谷歌的手机终端联邦学习,微众银行联合多家银行建立的反洗钱模型,以及针对同一用户群体,不同特征维度的“纵向联邦”,例如根据用户在银行的信用表现进行个性化保险定价。除此以外,微众银行AI团队***提出了“联邦迁移学习”,将“联邦学习”和“迁移学习”相结合,即使是在用户群体和特征维度重合都小的情况下,也可以进行合作,这意味着无论是政府机构和金融机构之间,还是互联网机构和金融机构之间,或者是其他各领域之间,都可以实现跨界合作。

image.png

联邦学习不仅是技术方向,更是社会问题

杨强教授提到,虽然有了技术工具,微众银行也对外开源了通用的联邦学习框架平台Federated AI Technology Enabler(FATE),但如何设立激励机制吸引机构进入联邦,形成良性生态,则包含博弈论、机制设计、法律等多领域,联邦学习不仅是能解决数据孤岛和数据隐私保护的技术方向,更是一个复杂的社会协同治理问题。除了吸纳更多企业加入联邦生态,微众银行AI团队也在积极推动联邦学习国际标准IEEE标准的制定,这一标准有望在两年内出台,为立法和监管提供更多技术依据。

image.png

联邦学习将走向何方?人工智能将走向何方?杨强教授的观点是,数据可以不出本地,各个数据拥有方可以在安全、保密的前提下交换人工智能模型的参数,以达到联合建模的目的。这种不同学科的交叉融合是趋势,联邦学习和迁移学习,或者是其他机器学习方法,都可以相互融合,发挥各自的特点,从一个领域下的人工智能算法理论迈向多个领域,这才是更有价值的研究。