Predicting Users’ Motivations be

作者: 一块糖三两三 | 来源:发表于2017-05-11 00:22 被阅读0次

背景问题

位置签到（check-in）包含位置和语义信息，user在签到的同时，可能泄漏远远超出他们想象的个人信息。

以前研究的不足

utility：可理解为用户体验。

以前有量化用户隐私的，但很少有研究关注用户体验utility的损失。

本文贡献

1. 研究位置签到背后的user动机，基于此，首次提出预测user动机的机器学习方法；

2. 设计了一个utility loss函数，可作为隐私保护方法设计的一个基础；

3. 基于Foursquare用户调查结果，研究了utility和隐私之间的平衡。

原理

在 Foursquare 认真选了 77个用户参与调研。

定义了四种混淆等级：

用户签到的动机占比

将utility分级，1-5,1 为“一点也不”，5为“叵费（完美）”。

调研utility情况：

不同混淆级别的utility值

特别的，签到目的影响不小，对于2种混淆对应的utility。

基于签到目的的自动utility预测模型：

工作流程

特征提取：

1. 结构化的地点信息：用 Foursquare API；

2. 非结构化的文本描述信息：用 Python NLP toolkit (NLTK 3.0) 提取低级文本特征，朴素贝叶斯分类器通过低级文本特征提取高级文本特征（i.e. 心情）。

3. 混合类型特征：为提取地点信息和文本信息之间的相关性，计算了最长子字符串和Levenshtein距离。

机器学习推测签到目的：得到签到的特征向量后，用多类（multi-classes）分类器进行分类。经过多重分类器实验，本文选用于本文数据集效果最好的随机森林进行分类。

基于签到目的的utility模型：

定义 utility u = f（m, o, k）∈ [1, 5]；

13种签到目的 m ∈ {1, . . . , 13}；

混淆 o = (os, og)，其中 os, og ∈ {1, 2}（1为low，2为high）；

k = （k1, . . . , kn）是地点特征和用户特征。

首先，使用真实的用户目的，研究utility、混淆和动机的关系；然后，用上述的推测目的，研究三者关系。以此，验证自动推测方法的效果。

utility的线性回归方程

同时，也将上线性回归方程与一个非线性模型作对比。(M5P model tree technique [34], by using the WEKA toolkit).

可被混淆的比例，横轴为utility值

测试结果，详情分析略。

网友评论

本文标题：Predicting Users’ Motivations be

本文链接：https://www.haomeiwen.com/subject/tpagtxtx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！