paper标题为"EBM - An Entropy-Based Model to Infer Social Strength from Spatiotemporal Data",这篇文章发在sigmod 2013,写的比较有意思,适合作为研究共现现象、social tie和时空数据挖掘的入手文章。本文利用共现现象的多样性(diversity)和隐私性(privacy)对用户的social tie进行建模。
check-in数据是非常流行的时空数据,包含<u,l,t>三元信息,即用户u在时间t地点l打卡。从直觉上来说,经常在不同的地方同时出现的人群更有可能是熟人。因此定义:对于用户 , 地点 , 用户i和用户j的共现现象可以用共现向量表示,其中 表示用户i,j在地点l出现的次数。
文章的主要思路如下图所示,diversity由Shannon Entropy建模,但由于coincidence现象的存在,作者用Renyi entropy进行改进,一定程度上规避该现象。地点的隐私性由Location Entropy建模,然后利用location entropy由Weighted Frequency建模共现向量的隐私性。最后将Renyi entropy和weighted frequency合并成一个指标得到social tie。
多样性
从直觉上来说,用户在多个不同的地方同时出现,那么该用户之间social tie会更紧密。因此定义用户i、j在地点l共现的概率:
其中,表示用户i,j在地点l共现的次数,表示用户i,j共现次数总和,因此定义social tie :
其中
讨论完Shannon entropy后,作者提出对于利用Shannon entropy计算的social tie没有考虑coincidence 现象。例如,用户1,2只在图书馆同时出现了4次,用户1,3只在用户1家中同时出现了4次。这两对用户的Shannon entropy一样,但显然后者社交关系更紧密一些。为了缓解该现象带来了负面影响。作者提出Renyi entropy来重新定义。
隐私性
Renyi entropy的特性体现在参数q的取值:若q > 1,权重会向值较大的 倾斜;若q > 1,权重会向值较小的 倾斜。作者在文章中b把q设为0.5。个人认为原因如下:作者假设越隐私的地方用户之间更难同时出现,也即认为较小的地方是更隐私的地方。同时,作者也承认该假设还有漏洞,但是声明Renyi entropy比Shannon entropy能更好应对coincidence现象。
为了正经解决coincidence现象带来的问题,提出Location entropy,定义如下:
其中为用户u出现在l的次数/所有用户出现在l的次数。显然,如果出现的用户越多,用户出现的次数越相同,则的值越大,一个地方大家都会去,那么该地点很可能是一个公共场所。因此定义weighted frequency:
注意exp里面的负号,表示越大其权重越小,反过来说,越隐私的地方权重越大。
关于如何将多样性和隐私性融合成一个指标,估计还得靠调参:
网友评论