联邦学习-笔记整理(一)
什么是联邦学习
横向联邦学习
谷歌分布式系统
纵向联邦学习
加密的实体对齐
一个简单的例子
image.png当前虽然是大数据时代,但是还我们面临如信息孤岛以及数据隐私保护等问题,很多数据无法直接汇到一起进行建模,为了在多方数据进行联合建模的同时保护数据隐私,我们需要联邦学习。前段时间我对联邦学习进行了一些调研。
联邦学习根据数据和数据持有者的性质可以分为:横向联邦学习,纵向联邦学习和迁移联邦学习。
联邦学习根据数据和数据持有者的性质可以分为:横向联邦学习,纵向联邦学习和迁移联邦学习
image.png
横向联邦学习
谷歌分布式系统
特点:
1.多个用户,一个服务器
2.所有数据特征维度相同
3.用户本地训练
4.用户通过服务器共享参数
大致步骤如下:
image.png
可以看到,只有服务器为信息安全负责。那么如何做到隐私保护呢?
可以加密上传的梯度,只有收集到所有用户的梯度之后,其和才能被计算出来。
纵向联邦学习
先假定只有A,B两方进行联合建模。
假设:只有一方有标签Y。
挑战:只有X的一方无法建立模型;双方不能交换共享数据。
预期:双方均获得数据保护;模型无损失。
在这一方面,微众银行做了很多工作。以下很多内容参考自微众银行关于联邦学习的报告。
image.png加密的实体对齐
首先,上述场景下,A方和B方拥有的数据特征重叠较少,但是用户重叠较多。那么如何获知双方共同用户名单且不暴露其它名单呢?
可以用一种叫 CLK (cryptographic longterm key)的方法给双方用户信息进行加密,加密后的信息上传到一个可靠的第三方,第三方通过比对双方信息返回给双方两个结果:一是如何对原数据进行重新排列,二是加密的关于原数据对应用户是否为双方共有用户的信息。这里说的有点绕,以后有时间再详说。
一个简单的例子
以线性回归和同态加密技术为例
image.png image.pngimage.png image.png
image.png image.png
image.png
image.png
网友评论