从网络科学角度浅析简书

作者: 朱小虎XiaohuZhu | 来源:发表于2014-08-01 16:03 被阅读394次

Neil Zhu,简书ID Not_GOD,University AI 创始人 & Chief Scientist,致力于推进世界人工智能化进程。制定并实施 UAI 中长期增长战略和目标,带领团队快速成长为人工智能领域最专业的力量。
作为行业领导者,他和UAI一起在2014年创建了TASA(中国最早的人工智能社团), DL Center(深度学习知识中心全球价值网络),AI growth(行业智库培训)等,为中国的人工智能人才建设输送了大量的血液和养分。此外,他还参与或者举办过各类国际性的人工智能峰会和活动,产生了巨大的影响力,书写了60万字的人工智能精品技术内容,生产翻译了全球第一本深度学习入门书《神经网络与深度学习》,生产的内容被大量的专业垂直公众号和媒体转载与连载。曾经受邀为国内顶尖大学制定人工智能学习规划和教授人工智能前沿课程,均受学生和老师好评。

从网络科学角度浅析简书

It is happening.

在我的眼中,世界就是一个巨大而又复杂的网络。我喜欢以这样的方式来看待处于其中的任何事物,当然包含人类本身。对于简书这样一个写作和阅读平台,更是有很多的内在是能够直接使用网络的构建和解释的。

科学家都尝试着去用相对简单的模型来解释这个世界,但是往往会丢失大部分的信息。我们无法找到除世界本身之外的任何一个东西来刻画其全部属性。所以只能从各个侧面来进行真实世界的投影。先研究每个侧面,然后尝试着进行整合来完成整体的复现。但这样也是不够的。我们人类就是这样的无能。也正是这样的无能,才让后来者能接着玩下去。

简书现在有两个最重要的个体群:一是用户,一是文章。这两个群体之间的关系相当的有趣。最开始用户产生了文章,这些文章是用户脑海里的思想然后在现实中投射而成。文章接下来又会进一步地促使用户本人和其他阅读过本文的用户进行下次创作。这样的关系不断地发生。让这个雪球越滚越大。

1. 全局视角

在简书,可以见到的最基本的就只有一群用户或者文章,然后他们通过各式各样的关系联系在一起,作为一个整体在不断地演进。

1.1 文章网络

  1. 直接使用相似度来刻画文章之间的关系,当两个文章的相似度到一定的阈值时,我们当作他们之间形成链接。这样便可以把众多文章转化为一个网络。
  2. 文章被读者喜欢,这样我们可以通过读者的喜欢文章作为文章链接的根据。这样,文章又可以形成另一种内涵的网络。
  3. 文章加入了若干的专题,这样同一专题的文章之间又会形成一种特定的关系。

1.2 写读者网络

1.2.1 无向图

读过一些文章,喜欢了这些文章,用户之间形成了潜在的交互关系,因此这样的关系就在用户之间编织出了一张巨大的网络。

读者和写者,往往混合在一起,并不是相对独立的。这里做简化为一个。

  • 读过相同文章的人之间有关系
  • 喜欢过相同文章的人之间有关系
  • follow相同用户的人之间有关系
  • 订阅相同的文集的人之间有关系

1.2.2 有向图

  • 用户之间有follow关系,这样的关系是单向的。
  • 写信的用户之间有通信关系。带权值的网络。

2. 个体视角

这是针对每个用户来说的,用户有自己喜欢的文章,跟随的用户,订阅的专题。
这就是一张多部图(multipartite graph)

notes * collections * users

3. 局部视角

阴阳相生

在相似的用户社区内部,他们的差异。就如同望远镜的效果一样,使用各种分类算法能够根据某种相似性获得网络的簇信息。因此,在获得划分之后,我们可以聚焦到某些小的群体上,去近距离观察群体的特征。

4. static v.s. dynamics

静若处子,动若脱兔

4.1 static

网站各类个体的全局拓扑关系是静态的,相当于系统的一个快照,刻画了当时的系统状态。

4.1.1 重要的个体的发现

个体包含具有独立特征的作者、文集或者文章。对重要的作者、文集和文章的发现,可以使得我们对整个网站的文章的当前面貌有一个整体把握。

科技和人文的汇合的文章可以作为两个不同领域的交汇之处;文集可以是代表着某类众多用户共同拥有的重要思想。而文章则是用户最喜欢的类型和内容的集中展示。

受到Google PageRank的启发,我们同样可以定义出两个类似的Rank:

  • PersonRank:个人的影响力往往源自外部的影响性
  • TextRank:此rank需要考虑到文章内部的关联
    这只是N多方法中的一种。也可以使用其他算法或者启发式规则来刻画这种影响力。

被喜欢和被评论最多的人或者文章肯定有着很高的rank,但是是什么才能真正决定个体的重要性呢?实验后才能知道,给出答案。

如何提高自己的影响力?
answer: 只是不断地去写文章是不够的,需要完成某种程度的交互才能形成竞争力。

4.1.2 6度分隔

文章之间的距离,意味着主题之间的远近程度。我们可以了解到文章的本质。
用户之间的距离,意味着你如何找到与你更为相似的人,如何快速到达。

4.1.3 社团结构

找到相似的文章或者相似的用户,不管你喜欢不喜欢和他们分作一群,就有些人和你是同类。你们被同样的文章所感动,被同样的人喜欢,说明你们必定在某些方面具有深刻的一致性。你们一起聊天也肯定会有共同语言。就这点说,简书倒是可以作为找知心好朋友网站的存在。因为通过文字建立起来的关系,常常会超过那些只是见面却不擅长沟通的伪关系。

文章也肯定会形成不同类型的团体。自动发现的会和用户设定的分类相似么

4.2 dynamics

整个网站的进化过程是动态的一面。包含用户的新增,文章的创建,文集的新建,喜欢的情形的出现,文章的收录的出现。投稿接受和非接受的预测

4.2.1 信息的传播研究

一篇文章要传达的思想是否已经传播到每个用户那儿,或者找出其最大的影响范围。这是很有趣的问题。也会导出一个自然的思考,如何让观点或者思想快速和广泛地传播——选择什么方式来达到自己的目标。

4.2.2 社团结构的演进

社交网络的一种重要特征就是Giant component,相信在这两种网络中一定会存在。网络的演进会影响GC的形成情况和特征。

4.2.3 趋势分析(用户兴趣点的出现)

最热门的关键词研究会产生这样的推广,关键词意味着整个网站众多用户的兴趣所在。新的专题的产生也会暗示某种新的兴趣的出现。

5. 终极目标

帮助人们更好的写作/认识自我,如何使用这些可以学得的经验来帮助人们获得更加合适的写作支撑。我不喜欢被工具所绑架,但是若是工具给予我们以深层次的关怀,指导我们创作,激发写作的灵感,那岂不是一件绝妙的体验!

相关文章

网友评论

  • LostAbaddon:之前写过几篇文章也是讨论简书这类网站的结构与动力学特性的。

    最近还打算针对社团结构做数据分析,建立用户和文章的分类结构,并以此为根据做文章推荐。不过这个要有数据才好办……

本文标题:从网络科学角度浅析简书

本文链接:https://www.haomeiwen.com/subject/hvtetttx.html