美文网首页自然科普探索人工智能
技术01期:图计算,让数据间的关系无处可藏【社区分切篇】

技术01期:图计算,让数据间的关系无处可藏【社区分切篇】

作者: 是极客小普呀 | 来源:发表于2020-07-09 13:52 被阅读0次

作者:王钊   编辑:小普

社区,即一群拥有相似特征的点,社区内的点连接紧密,社区间稀疏连接。

我们可以把同一公司的同事看作是一个社区内的点,他们从事同一行业,可能有相似的教育背景,由于 工作需要,他们之间要进行频繁的沟通。

而不同的公司就像是两个不同的社区,他们之间可能存在着业务往来,但关系远没有公司内部连接紧密。

什么是社区切分?

那么发现这些社区对我们有什么用呢?

对于一家需要做广告宣传的公司,他一定是想花最少的钱,吸引最多的客户,通过广告的在某一社群的精准投放可以达到这一期望。

同理,对于银行信贷业务,如何才能降低逾期还款风险,审批时的筛选环节非常重要。

如果一个人所在的社区大多数人出现过多次逾期还款记录,那么这个申请人很有可能就不是一个优质的客户。

社区是若干社会群体或社会组织聚集在某一个领域里所形成的一个生活上相互关联的大集体,是社会有机体最基本的内容,是宏观社会的缩影。

下面让我们来一起看看如何进行社区切分

一种快速迭代社区划分方法:Louvain Algorithm

Louvain算法是一种贪婪算法,运行时间是O(nlogn),算是非常的快了。

而且类似层级聚类算法,可以提供不同尺度的社区发现,这点对于一些定性分析是很有吸引力的。

Louvain算法分两个步骤:

1. 对本地节点转换社区,并计算Modularity的变化,从而优化网络整体的Q;

2. 把相同社区的节点聚合成一个超级节点,从而形成一个新的图。

然后在重复1,直到最后整个网络的Q 不再增加。

这个算法比较好理解,其中的主要需要解决的就是如何计算第一步中的节点变换时Q的变化。

这里就从网络最初的原始形式开始,每个节点自己就是一个单独的社区

进行如下两步计算:

1. 计算ΔQ ,这个差距是把节点i划归到它的邻居节点j 所在的社区后Q 的变化值。

2. 选择把节i 划归到一个使得ΔQ 最大的邻居j 所在的社区。

具体的ΔQ 的计算公式如下:

其中,

对上面这个式子的进一步解释是:

1. 前面大括号里面的部分是把i 加入到社区C 后的Modularity。

2. 后面大括号里面的部分是不把i 加入到社区C 前的Modularity。

与此同时,需要计算

的值,即把节点i 移除社区D造成的Modularity的差值。

计算整体的Q的差值:

通过计算这个Modularity的差值,就获得了一个局部最优的社区集合

则进入第二步

算法的psudo-code见下图:

上面提到的模块度是一种衡量社区划分的指标,可以利用模块度Modularity Q来衡量社区划分的效果。

模块度的定义为:

其中,表示节点i和节点j的权重,为所有和节点i相连的权重和,m为所有边权重之和,是节点i所属社区,当节点i,j属于同一个社区时, 否则为0。

模块度的范围[-1,1],当模块度大于0.3-0.7时,社区划分效果已经很好了。

模块度是衡量社区划分效果的,所以希望在社区内部边的个数,要远大于一个随机图中这个社区内部边的个数,表达式上就是:

对于一个随机图,它要和真实图有相同的度分布,对于节点i和节点j,它们的度数分别是

,则节点i和节点j期望的边数为: 

(其中m为所有边权重和)

那么模块度

等价于上文所提到的模块度定义。

最后,有一个很有趣的现象,小普想分享给大家。

通过调查研究发现,人们在找工作时,往往可以通过一般的熟人,而不是好朋友获取更多的信息。

弱连接(一般熟人)或许是我们认识多元世界的一个很重要的渠道,对于强连接(好朋友),往往因为足够了解,可以获得的额外信息并不多。

这样的发现也可以启示我们,多多走出去,认识新的人吧~

参考文献:

http://web.stanford.edu/class/cs224w/slides/04-communities.pdf

https://www.youtube.com/watch?v=pnYwvN8TCio&list=PL1OaWjIc3zJ4xhom40qFY5jkZfyO5EDOZ&index=3

https://blog.csdn.net/infovisthinker/article/details/104724677

https://zhuanlan.zhihu.com/p/138824980

- 完 -

想了解更多关于人工智能的资讯

欢迎关注公众号:普适极客

相关文章

  • 技术01期:图计算,让数据间的关系无处可藏【社区分切篇】

    作者:王钊 编辑:小普 社区,即一群拥有相似特征的点,社区内的点连接紧密,社区间稀疏连接。 我们可以把同一公司的同...

  • 图计算,让数据间的关系无处隐藏

    “图计算”是以“图论”为基础的对现实世界的一种“图”结构的抽象表达,以及在这种数据结构上的计算模式。简单来说就是图...

  • 超体

    当数据能力和人工智能足够强大时,是可以透视一切的,形同裸体,连念头都无处可藏。

  • 无处可藏

  • 无处可藏

    孩子们光着上身, 挽起裤脚, 拿石头朝河里砸, 尖叫着搅动水花, 惊慌失措的小鱼乱串, 躲在草窠下的杂草里, ...

  • 无处可藏

    如果你没有站在 我的心尖上 为何每一次想念 都会感到窒息般的沉重 如果 你不是锋利的刀刃 为何每一次回首 我的心 ...

  • 无处可藏

    不知道为什么,我对气味特别敏感。 如果闻到漆味,汽车尾气,或者盗版印刷品,我嘴里的唾液就变得发苦,嗓子也苦,有病是...

  • 无处可藏

    虽然已经和这家人一起生活了一段日子,我还是难以喜欢他们,当然,我想他们也有同样的感受。 首先,他们有洁癖,无论是窗...

  • 无处可藏

    我把儿子早点买好放在桌上,看看时间是9:15了。不由得叹了口气:都这个点了还在睡觉! 啥叫放假...

  • 举报

    这是新时代 不是万恶的旧社会 请放心举报 让罪恶无处可逃 让卑鄙无耻无处可藏 一切都在于 您宝贵的责任心

网友评论

    本文标题:技术01期:图计算,让数据间的关系无处可藏【社区分切篇】

    本文链接:https://www.haomeiwen.com/subject/qcxhcktx.html