美文网首页
推荐系统浅谈系列(六) - 社交网络数据

推荐系统浅谈系列(六) - 社交网络数据

作者: 产品新人学习路 | 来源:发表于2016-12-26 11:02 被阅读1414次

本文是在《推荐系统实践》(项亮)的基础上总结,主要介绍社交网络数据在推荐系统中的作用。

0.背景
自从搜索引擎谷歌诞生后,大家都在讨论互联网的下一个金矿是什么。现在,几乎所有的人都认为那是社交网络!
美国著名的第三方调查机构尼尔森调查了影响用户相信某个推荐的因素。调查结果显示,90%的用户相信朋友对他们的推荐,70%的用户相信网上其他用户对广告商品的评论。可以看出,好友的推荐对于增加用户对推荐结果的信任度非常重要。

1.获取社交网络数据的途径

  • 电子邮件,通过分析用户的联系人列表了解用户的好友信息,而且可以进一步通过研究两个用户之间的邮件往来频繁程度度量两个用户的熟悉程度。但是电子邮件是一个封闭的系统,一般的研究人员很难得到用户的联系人列表和用户之间的来往信件。而且,这种情况不太适用于国内,国内使用电子邮件的频率远低于国外

  • 用户注册信息,有些网站需要用户填写诸如公司、学校等信息。有了这些信息后,我们就可以知道哪些用户曾经在同一家公司工作过,哪些用户曾经在同一个学校学习过,这也是一种隐性的社交网络数据

  • 用户的位置数据,PC端对应IP地址,移动端对应GPS数据。在给定位置信息后,可以查表获得用户访问时的地址。虽然不太精确,但有时候可以精确到学校里的某东宿舍楼,那么,就可以合理地假设同一栋宿舍楼的用户可能有好友关系。

  • 论坛和讨论组,例如豆瓣上的小组,每个小组包含了一些志同道合的人。如果两个用户同时加入了很多不同的小组,可以认为这两个用户很可能互相了解或者具有相似的兴趣。如果两个用户曾经在某一个帖子下共同进行讨论,那就更加说明他们之间的熟悉程度或兴趣相似度高

  • 即时聊天工具,它会有一个联系人列表,而且往往还会给联系人进行分组。通过列表和分组信息,可以知道用户的社交网络关系,而通过统计用户之间聊天的频繁程度,可以度量出用户之间的熟悉程度。但是即时聊天工具也是一个封闭的系统,获取用户的即时聊天信息是非常有困难的。

  • 社交网站,以Facebook和Twitter为代表,他们允许用户创建一个公开的页面介绍自己,并默认公开用户的好友列表(当然用户可以选择某些不公开),用户基于它们讨论的话题也很少涉及个人隐私,大都是讨论一些社会热点或分享一些图片、音乐、视频和笑话。Facebook中的绝大多数用户联系基于社交图谱(由于人们之间的亲属关系、工作关系而形成的);Twitter中的绝大多数用户联系基于兴趣图谱(通过人们之间的共同兴趣和信念形成的)

2.社交网络数据的分类
一般来说,有3种不同的社交网络数据:

  • 双向确认的社交网络数据,以Facebook和人人网为代表,用户之间形成好友关系需要通过双方的确认
  • 单向关注的社交网络数据,以Twitter和新浪微博为代表,用户A可以关注用户B,而不用得到用户B的允许
  • 基于社区的社交网络数据,用户之间并没有明确的关系,但是这种数据包含了用户属于不同社区的数据。比如豆瓣小组,属于同一个小组可能代表了用户兴趣的相似性

社交网络中用户的入度和出度满足长尾分布(入度:粉丝量,出度:用户关注的用户数)

入度 出度

3.社会化推荐的优点
社会化推荐之所以受到很多网站的重视,主要因为下面的优点:

  • 好友推荐可以增加推荐的信任度,好友往往是用户最信任的,用户往往不一定信任计算机的智能,但会信任好朋友的推荐
  • 社交网络可以解决冷启动问题,当一个新用户通过新浪微博账号登录网站时,可以从社交网站中获取用户的好友列表,然后给用户推荐好友在网站上喜欢的物品。从而在没有用户行为记录时就给用户提供较高质量的推荐结果,部分解决了推荐系统的冷启动问题

下面介绍社交网络推荐中的两个应用例子~

4.信息流推荐
信息流推荐时社会化推荐领域的新兴话题,主要面向Twitter和Facebook这两种类型的社交网站。
这两种类型的社交网站中,每个用户都有一个信息墙,展示了好友最近的言论。这个信息墙无疑已经是个性化的,但是里面还是夹杂了很多垃圾信息。这主要是因为我们并不关心我们关注的好友的所有言论,而只关心他们的言论中和自己相关的部分。
信息流的个性化推荐要解决的问题就是如何进一步帮助用户从信息墙上挑选有用的信息

Facebook用户信息流

5.好友推荐
好友推荐的目的是根据用户现有的好友、用户的行为记录给用户推荐新的好友,从而增加整个社交网络的稠密程度和社交网站用户的活跃度。
下面看几种比较直观和简单的算法:

  • 基于内容的匹配,给用户推荐和他们有相似内容属性的用户作为好友,常用内容属性:

    • 用户人口统计学属性,包括年龄、性别、职业等
    • 用户的兴趣,包括用户喜欢的物品和发布过的言论等
    • 用户的位置信息,包括用户的住址、IP地址和邮编等
  • 基于共同兴趣的好友推荐,在Twitter和微博为代表的以兴趣图谱为主的社交网络中,用户往往不关心对于一个人是否在现实社会中认识,而只关心是否和他们有共同兴趣的爱好。因此,在这种网站中需要给用户推荐和他有共同兴趣的其他用户作为好友。
    以新浪微博为例,可以将微博看作物品,基于userCF算法,如果两个用户曾经评论或者转发同样的微博,说明他们具有相似的兴趣

  • 基于社交网络图的好友推荐,在社交网站中,我们会获得用户之间现有的社交网络图,然后可以基于现有的社交网络给用户推荐新的好友,比如可以给用户推荐好友的好友

暂时写到这~


                                       微信公众号: 
                           产品新人学习路 ( i-pm-road),欢迎交流 
                                        (๑•ᴗ•๑)
产品新人学习路 ( i-pm-road)

相关文章

网友评论

      本文标题:推荐系统浅谈系列(六) - 社交网络数据

      本文链接:https://www.haomeiwen.com/subject/cccjvttx.html