美文网首页
社会媒体挖掘

社会媒体挖掘

作者: 锅巴GG | 来源:发表于2016-03-09 23:48 被阅读532次

    ——Social Media Mining (An Introduction)

    作者 Reza Zafarani(美), Mohammad Ali Abbasi, Huan Liu
    读者 锅巴GG

    获益匪浅

    讲社交现象的书很多,事后总结的也很多,然而这本书让我惊喜。
    虽然全书按教材的方式组织,并且提供了很多相关的算法,但是抛开这些信息,全书对社交、社交媒体以及挖掘都有很好的覆盖,不敢说由浅入深,但是如果不惧怕数学公式的大篇幅解释,其实本书的核心内容算是非常精炼并有效的传达了高价值的信息,值得反复品读

    • 社会媒体挖掘

    社会媒体(Social Media)的发展,使得内容被无数的用户阅读和传播,并给予即时反馈。社会媒体使得我们可以随时随地与人沟通和交流,并在一个空前的规模下观察人类的行为。社会媒体平台提供了绝好的机会,从海量的数据中挖掘人类的行为模式。

    • 什么是社会媒体挖掘?

    结合社会学理论和计算方法来学习人类个体(社会原子Social Atom)如何相互影响,以及社区(社会分子Social Molecule)是如何形成的。
    社会媒体挖掘是从社会媒体数据中表示、分析和抽取可操作模式的过程。
    社会媒体挖掘以一种可计算的方式表示和度量社会媒体的虚拟世界,并且建立模型以帮助我们理解其中的交互。

    • 新的挑战
      1. 大数据悖论
      2. 足够的样本数
      3. 噪声消除谬误
      4. 评价困境

    第一部分

    基础知识,概述如何表示社会媒体数据以及社会媒体挖掘的基本要素

    • 图的基本要素

    这本书讲的比较基础,当然图理论本身的难度并不大,只是工程实现方面难度很大,本书提纲挈领,算是很高效的让大家对图有个基本认识。读者本人最近也熟读图库理论,并评估掌握了两个图形数据库,一个是Neo4j,一个是OrientDB,现在DBE中排名最靠前的两个图库产品,欢迎交流。

    • 图的重点要理解连通性,因为很多应用都诞生与此
    • 图算法要理解遍历
    • 图的工程实现,要非常明确的理解最基本的数据结构,如:
    1. 邻接矩阵
    2. 邻接表
    3. 边列表
    
    • 网络度量

    在社会媒体中,通过度量社会媒体网络中不同结构的属性,帮助我们更好的理解其中涉及的用户,是最常见的任务
    我们需要为这些任务设计相关的度量方案

    • 中心性
      中心性定义了网络中一个中心节点的重要性。
    • 传递性与相互性
      需要观察社会媒体网络中某个特定行为,如:连接行为
      研究连接行为有两个有名的度量方法:传递性和相互性
    • 平衡和地位
      个体之间的关系
      注意社会平衡理论社会地位理论,帮助我们决策有向网络中的一致性。
    • 相似度
      节点间的相似度可以通过他们的结构等价性或规则等价性获得
    • 网络模型

    尝试通过构建小型网络来设计网络模型,从而模拟真实世界的网络。
    假设这些模型能够很好地模拟真实世界网络的属性,我们就得到了一种高性价比的方法,通过衡量仿真网络的不同属性分析真实世界。
    模型具有坚实的数学理论基础,能够帮助人们理解真实网络中的现象
    模型在很多仿真网络中做了对照实验来验证有效性。
    需要理解三种广泛接受的模型:

    1. 随机图
    2. 小世界模型
    3. 优先链接模型
    • 数据挖掘的基本要素

    要不先说说目标吧?发现有统计学意义的模式

    1. 数据
    2. 数据预处理
    3. 数据挖掘算法
    • 监督学习
    • 无监督学习

    数据库中的知识发现(KDD)是分析数据的普遍流程。
    监督学习将特征值映射到类标签,无监督学习将实例按照物体的相似程度分类。

    第二部分

    讨论如何在社会媒体中发现社区,以及在社会媒体中如何进行交互和信息传播

    • 社区分析

    重点解读了三个关键问题:

    1. 我们怎样发现社区
    2. 社区是如何演化的
    3. 怎样评价发现的社区?

    那么,什么是社交社区?

    • 信息传播

    传播过程主要包含三要素:

    1. 传播者
    2. 接收者
    3. 传播媒介——个体之间的交流
    • 羊群效应
      未经计划而出现的一致性行为;
    • 信息级联
      信息在朋友(邻近)之间传播产生了信息级联
      关注级联的各种模型和范围
    • 创新扩散
      创新扩散模型,非常值得阅读
    • 流行病模型
      隐性网络的趋势和速度研究

    第三部分

    介绍社会媒体挖掘中一些新颖的解说性应用

    • 影响力和同质性
      不同模式的连接网络,有一种模式叫同配性,也称为社会相似性,在同配网络中,相识个体比不相似个体更容易形成连接。
      这个部分让我们可以很好的理解微信和好友关系
    • 推荐
      推荐系统面临很多挑战:
      1. 冷启动
      2. 数据稀疏(系统整体相关,个体无关)
      3. 网络攻击(可能被利用)
      4. 隐私(推荐的更好,但是要注重保护用户隐私)
      5. 解释说明(解读推荐的缘由)
    • 经典的推荐算法
      1. 基于内容的算法
        依据是用户的兴趣应该与系统推荐项目的描述相匹配(相似度)
      2. 协同过滤
        建立用户→项目的评分矩阵,一般有两种协同过滤,对于未知的,采取基于记忆(历史)的,而基于已知的,建立模型并预测评分。
      3. 将个体推荐、推广给群体
    • 基于社会背景知识的推荐系统
      个体之间的交友网络,假设一个用户的朋友会影响该用户的评分时,这些信息可以用于改进推荐系统。
      当使用社会信息时,可以使用:
      1. 仅使用朋友信息
      2. 使用评分信息和社会信息
      3. 使用社会信息来限制推荐
    • 推荐系统评价
      评估推荐系统的准确性,通常可以评估:
    1. 预测的准确率
    2. 推荐的相关性
    3. 推荐的排序
    • 行为分析
      这部分内容比较基础,建议有兴趣深入了解其他相关书籍,重点在于场景(动机)和模型(行为分析)
    1. 个体行为
    2. 群体行为
      目标当然就是为了预测咯~~ 这是最大的价值~~~

    想加入更多乐读创业社的活动,请访问网站→ http://ledu.club
    或关注微信公众号选取:

    乐读微信公众号

    相关文章

      网友评论

          本文标题:社会媒体挖掘

          本文链接:https://www.haomeiwen.com/subject/wqwgkttx.html