社会媒体挖掘

作者: 锅巴GG | 来源:发表于2016-03-09 23:48 被阅读532次

——Social Media Mining (An Introduction)

作者 Reza Zafarani(美), Mohammad Ali Abbasi, Huan Liu
读者 锅巴GG

获益匪浅

讲社交现象的书很多，事后总结的也很多，然而这本书让我惊喜。
虽然全书按教材的方式组织，并且提供了很多相关的算法，但是抛开这些信息，全书对社交、社交媒体以及挖掘都有很好的覆盖，不敢说由浅入深，但是如果不惧怕数学公式的大篇幅解释，其实本书的核心内容算是非常精炼并有效的传达了高价值的信息，值得反复品读

社会媒体挖掘

社会媒体(Social Media)的发展，使得内容被无数的用户阅读和传播，并给予即时反馈。社会媒体使得我们可以随时随地与人沟通和交流，并在一个空前的规模下观察人类的行为。社会媒体平台提供了绝好的机会，从海量的数据中挖掘人类的行为模式。

什么是社会媒体挖掘？

结合社会学理论和计算方法来学习人类个体（社会原子Social Atom）如何相互影响，以及社区（社会分子Social Molecule）是如何形成的。
社会媒体挖掘是从社会媒体数据中表示、分析和抽取可操作模式的过程。
社会媒体挖掘以一种可计算的方式表示和度量社会媒体的虚拟世界，并且建立模型以帮助我们理解其中的交互。

新的挑战
1. 大数据悖论
2. 足够的样本数
3. 噪声消除谬误
4. 评价困境

第一部分

基础知识，概述如何表示社会媒体数据以及社会媒体挖掘的基本要素

图的基本要素

这本书讲的比较基础，当然图理论本身的难度并不大，只是工程实现方面难度很大，本书提纲挈领，算是很高效的让大家对图有个基本认识。读者本人最近也熟读图库理论，并评估掌握了两个图形数据库，一个是Neo4j，一个是OrientDB，现在DBE中排名最靠前的两个图库产品，欢迎交流。

图的重点要理解连通性，因为很多应用都诞生与此

图算法要理解遍历

图的工程实现，要非常明确的理解最基本的数据结构，如：

1. 邻接矩阵
2. 邻接表
3. 边列表

网络度量

在社会媒体中，通过度量社会媒体网络中不同结构的属性，帮助我们更好的理解其中涉及的用户，是最常见的任务
我们需要为这些任务设计相关的度量方案

中心性
中心性定义了网络中一个中心节点的重要性。

传递性与相互性
需要观察社会媒体网络中某个特定行为，如：连接行为
研究连接行为有两个有名的度量方法：传递性和相互性

平衡和地位
个体之间的关系
注意社会平衡理论和社会地位理论，帮助我们决策有向网络中的一致性。

相似度
节点间的相似度可以通过他们的结构等价性或规则等价性获得

网络模型

尝试通过构建小型网络来设计网络模型，从而模拟真实世界的网络。
假设这些模型能够很好地模拟真实世界网络的属性，我们就得到了一种高性价比的方法，通过衡量仿真网络的不同属性分析真实世界。
模型具有坚实的数学理论基础，能够帮助人们理解真实网络中的现象
模型在很多仿真网络中做了对照实验来验证有效性。
需要理解三种广泛接受的模型：

随机图
小世界模型
优先链接模型

数据挖掘的基本要素

要不先说说目标吧？发现有统计学意义的模式

数据

数据预处理

数据挖掘算法

监督学习

无监督学习

数据库中的知识发现(KDD)是分析数据的普遍流程。
监督学习将特征值映射到类标签，无监督学习将实例按照物体的相似程度分类。

第二部分

讨论如何在社会媒体中发现社区，以及在社会媒体中如何进行交互和信息传播

社区分析

重点解读了三个关键问题：

我们怎样发现社区

社区是如何演化的

怎样评价发现的社区？

那么，什么是社交社区？

信息传播

传播过程主要包含三要素：

传播者

接收者

传播媒介——个体之间的交流

羊群效应
未经计划而出现的一致性行为；

信息级联
信息在朋友（邻近）之间传播产生了信息级联
关注级联的各种模型和范围

创新扩散
创新扩散模型，非常值得阅读

流行病模型
隐性网络的趋势和速度研究

第三部分

介绍社会媒体挖掘中一些新颖的解说性应用

影响力和同质性
不同模式的连接网络，有一种模式叫同配性，也称为社会相似性，在同配网络中，相识个体比不相似个体更容易形成连接。
这个部分让我们可以很好的理解微信和好友关系

推荐
推荐系统面临很多挑战：

冷启动

数据稀疏(系统整体相关，个体无关)

网络攻击(可能被利用)

隐私(推荐的更好，但是要注重保护用户隐私)

解释说明(解读推荐的缘由)

经典的推荐算法

基于内容的算法
依据是用户的兴趣应该与系统推荐项目的描述相匹配(相似度)

协同过滤
建立用户→项目的评分矩阵，一般有两种协同过滤，对于未知的，采取基于记忆(历史)的，而基于已知的，建立模型并预测评分。

将个体推荐、推广给群体

基于社会背景知识的推荐系统
个体之间的交友网络，假设一个用户的朋友会影响该用户的评分时，这些信息可以用于改进推荐系统。
当使用社会信息时，可以使用：

仅使用朋友信息

使用评分信息和社会信息

使用社会信息来限制推荐

推荐系统评价
评估推荐系统的准确性，通常可以评估：

预测的准确率

推荐的相关性

推荐的排序

行为分析
这部分内容比较基础，建议有兴趣深入了解其他相关书籍，重点在于场景(动机)和模型(行为分析)

个体行为

群体行为
目标当然就是为了预测咯~~ 这是最大的价值~~~

想加入更多乐读创业社的活动，请访问网站→ http://ledu.club
或关注微信公众号选取：

乐读微信公众号

网友评论

本文标题：社会媒体挖掘

本文链接：https://www.haomeiwen.com/subject/wqwgkttx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！