差分隐私本地协同过滤
SIGIR '20: The 43rd International ACM SIGIR conference on research and development in Information Retrieval
下载地址:http://dl.acm.org/doi/epdf/10.1145/3397271.3401053
关键词:
推荐系统,协同过滤,差分隐私
背景及现状:
推荐系统从用户数据中收集用户偏好信息,可能会使用户隐私泄露。
本文中假设推荐方是不可信的,当作是潜在的攻击者。
提出问题:
现有的两种解决方案一种是给用户原始数据增加噪声,一种是研究分散矩阵分解(即服务器和客户端以潜在表示or梯度进行多次参数更新)
但存在的问题是:
1.不能解决隐式数据(是训练推荐系统时最常用的数据)
2.推荐结果中会存在隐私泄露(因为推荐结果是对未来行为的预估,这种估计的行为也可以被用来推断敏感信息)
3.通信和计算成本高(如果使用分散式方法)
解决方法:
该论文提出了一个通用的框架,称为差异私有的本地协同过滤推荐。设计的工作流程由三个步骤组成。首先,对于保存在用户设备上的累积行为日志,采用一种不同的私有保护机制来帮助在向服务器报告之前混淆真实的交互。其次,在收集了所有用户的所有模糊记录后,服务器运行一个估计模型来计算每对项目之间的相似性。该步骤不需要用户相关数据,因此不会引入任何辅助隐私风险。最后,服务器将估计的用户无关项目相似性矩阵发送到每个用户设备,并且基于项目与每个用户本地存储的原始行为数据的相似性在本地推断推荐结果。
研究重点&亮点:
1.用了随机位翻转来导出模糊位向量
2.提出了一种基于估计的方法尽可能从用户上传的模糊位向量中提取有效相似性信号
主要内容:
框架
框架图第一步: 模糊上传数据
由于隐式数据(如用户历史交互记录)只有二进制值,直接在上添加连续噪声不合适,所以采用了差分隐私保护下的随机位翻转(random bit-flip)技术。该技术的差分隐私证明在[1]中Theorem III.1。每个用户都用这种方式导出一个模糊位向量,并上传到服务器。
证明第二步:数据开发
服务器收集来自每个用户的模糊交互并合并为一个模糊矩阵。由于向量经过随机翻转处理,传统的用于处理隐式数据的因子分解无法使用。所以本文提出一种基于估计的方法,尽可能提取出有效的相似性信号。该方法也是参考了[1],细节部分还未看懂。
第三步:推荐
服务器将学习到的模型参数发给用户,用户设备结合本地存储的原始行为数据作为推荐模型的输入。先是过滤出number_of_neighbour个具有最高相似度的item,再为每个item j找到邻域KNN(j)。再是计算出邻域内交互记录的加权和作为候选推荐item的得分。
模型
由于随机位翻转有两种类型,一种是对称翻转,如p=1-q;一种是不对称翻转,如p≠1−q。本文将两种都考虑在内,将非对称翻转的方法命名为DPLCF-AP,将对称翻转的方法命名为DPLCF-SP。
实验
数据集
1.AppUsage Dataset 该数据集记录了用户的移动应用使用情况,发布于[2]。该记录中的每个条目都包含匿名用户标识、时间戳和所用移动应用的标识。这个数据集非常适合该篇的任务,因为应用使用数据对用户来说是私有的,很多应用服务提供商收集这些数据进行个性化推荐。
2.MovieLens Dataset
实验结果
DPLCF-AP在 AppUsage Dataset 表现较好 DPLCF-SP在 MovieLens Dataset 表现较好AppUsage Dataset交互比较稀疏,说明用户的正面记录少,而不对称翻转对正面记录的损害比较少。
参考资料:
[1]Rade Stanojevic, Mohamed Nabeel, and Ting Yu. 2017. Distributed cardinality estimation of set operations with differential privacy. In 2017 IEEE Symposium on Privacy-Aware Computing (PAC). IEEE, 37–48.
[2]Donghan Yu, Yong Li, Fengli Xu, Pengyu Zhang, and Vassilis Kostakos. 2018. Smartphone app usage prediction using points of interest. Proceedings of the ACM on Interactive, Mobile, Wearable and Ubiquitous Technologies (IMWUT) 1, 4 (2018), 174.
网友评论