美文网首页
Predicting Users’ Motivations be

Predicting Users’ Motivations be

作者: 一块糖三两三 | 来源:发表于2017-05-11 00:22 被阅读0次

    背景问题

    位置签到(check-in)包含位置和语义信息,user在签到的同时,可能泄漏远远超出他们想象的个人信息。

    以前研究的不足

    utility:可理解为用户体验。

    以前有量化用户隐私的,但很少有研究关注用户体验utility的损失。

    本文贡献

    1. 研究位置签到背后的user动机,基于此,首次提出预测user动机的机器学习方法;

    2. 设计了一个utility loss函数,可作为隐私保护方法设计的一个基础;

    3. 基于Foursquare用户调查结果,研究了utility和隐私之间的平衡。

    原理

    在 Foursquare 认真选了 77个用户参与调研。

    定义了四种混淆等级:

    用户签到的动机占比

    将utility分级,1-5,1 为“一点也不”,5为“叵费(完美)”。

    调研utility情况:

    不同混淆级别的utility值

    特别的,签到目的影响不小,对于2种混淆对应的utility。

    基于签到目的的自动utility预测模型:

    工作流程

    特征提取:

    1. 结构化的地点信息:用 Foursquare API;

    2. 非结构化的文本描述信息: 用 Python NLP toolkit (NLTK 3.0) 提取低级文本特征,朴素贝叶斯分类器通过低级文本特征提取高级文本特征(i.e. 心情)。

    3. 混合类型特征:为提取地点信息和文本信息之间的相关性,计算了最长子字符串和Levenshtein距离。

    机器学习推测签到目的: 得到签到的特征向量后,用多类(multi-classes)分类器进行分类。经过多重分类器实验,本文选用于本文数据集效果最好的随机森林进行分类。

    基于签到目的的utility模型:

    定义  utility u = f(m, o, k)∈ [1, 5];

    13种签到目的 m ∈ {1, . . . , 13};

    混淆 o = (os, og),其中 os, og ∈ {1, 2}(1为low,2为high);

    k = (k1, . . . , kn) 是地点特征和用户特征。

    首先,使用真实的用户目的,研究utility、混淆和动机的关系;然后,用上述的推测目的,研究三者关系。以此,验证自动推测方法的效果。

    utility的线性回归方程

    同时,也将上线性回归方程与一个非线性模型作对比。(M5P model tree technique [34], by using the WEKA toolkit).

    可被混淆的比例,横轴为utility值

    测试结果,详情分析略。

    相关文章

      网友评论

          本文标题:Predicting Users’ Motivations be

          本文链接:https://www.haomeiwen.com/subject/tpagtxtx.html