作者: K
本文延伸阅读:Wu L, Zhang J, Zhao M (2014), The Metabolism and Growth of Web Forums, on PLoS ONE.
广义的新陈代谢
人们常常像谈论一个活的有机体那样谈论起社会系统,例如城市、国家或网站。网站管理者们有时候也觉得,网络社区似乎是有生命的,他们生长、发育,甚至有着自己的情绪。尽管如此,并没有人去认真探究这件事。普通人早已习惯使用各种隐喻来帮助自己了解世界;而科学家们在年轻时接受的专业训练第一课,就是牢记前辈的告诫,要小心暧昧不清的想象与清晰定义的科学问题之间的巨大鸿沟。
然而对于集智俱乐部的计算士和Jake等人而言,此类鸿沟似乎并不存在。
仅仅是将网络社区“看做”一个生命,这种粗糙类比并不令人满意。科学靠想象力驱动,但也讲究证据。正如薛定谔在他那本著名的小册子中提到的那样,新陈代谢,是所有已知生命最显著的共有特征。如果网络社区确实是个生命体,那它必然同样具备新陈代谢功能。于是,他们发现自己面对着一个新奇的问题:网络社区在新陈代谢吗?如果是的话,应该如何刻画这种代谢呢?
真实世界的生命需要吸收营养物质,将其部分转化成自己的身体部件,余下的废物则排出体外。从这个角度说,一个网络社区也在不停地吸纳新鲜的帖子、消息,体量由此得以增长,在虚拟世界中变得更可见。但是,所谓的转化和排泄却无从谈起 — 帖子一旦发出就几乎不再变化,也通常不会被删除。
是新陈代谢的类比出错了吗?或许这个荒谬的研究应该止步于此?
这样轻易放弃的人不可能成为真正的科学家。这个群体看似多元,却有着明显的共同特征,那就是对优美规律存在性的坚信不疑。规律必然一直在某处。一无所获,只能说明尚未找到看待问题正确的角度。
或许是从物质循环的角度,并没有趋近生命新陈代谢的本质。更深入的思考告诉我们,生物体新陈代谢的最主要目的是获取食物中的能量(更准确地说,自由能)。能量才是生命之本,它维持着机体的生命,并提供着动力来源。
网络社区中是否有类似能量的东西呢?计算士等人认为答案是肯定的。这就是用户的注意力。在虚拟世界中,用户的注意力维持着互联网社区的生命:只有持续吸引用户点击的帖子才算得上“活着”。社区获得越多注意力,就有更多的机会发育(吸引新的发帖)和繁殖(分化出子社区)。每时每刻,无数的网络社区不断吸收着用户的新鲜注意力,部分转化为自身内部的信息资源,余下的废弃注意力则排出虚拟世界。
注意力之于网络社区,犹如能量之于生物体。
注意力与点击流
互联网时代,赢得了注意力就赢得了一切。早在1971年,著名科学家赫伯特·西蒙(Herbert Simon,诺贝尔经济学奖获得者、人工智能创立者之一)就预言我们正在进入一个信息过剩的世界。长达数千年,跨越了农业和工业革命的人类演化史中,信息一直是珍贵的稀缺资源。但在我们的时代,注意力成为了稀缺资源。
在互联网上,注意力被量化成了鼠标的点击操作。互联网中点击代表关注,如同选举中投票代表支持。因此,各大互联网公司将点击率视为公司发展的根本和员工业绩考量的核心指标。点击流折现,这就是著名的“Google印钞机” 背后的注意力经济学原理。
一段时间内,单个用户连续的点击操作构成一条点击流。而大量用户的集体操作就形成一个点击流网络。下图展示了如何从网站日志文件(log file) 中构造点击流网络。
图A展示的是日志文件信息。其中a, b, c, d, e是五个用户,0,1,2,3,4,5是六个网页。从这些点击历史中可以构造出图B所展示的点击流网络。其中连边上的权重显示着从一个网页跳转到另一个网页的用户数量。图C描述了随着时间过去,点击流网络在不断成长。
Jake认为,点击流网络是研究各类互联网社区的有力武器。比起当下流行的以用户为节点的社交网络,它具有明显的优势:社交网络上的信息传播不具有守恒性,理论上信息可能被复制无穷多次。而点击流网络上的注意力流量是守恒的。每个节点的入流必然等于出流,注意力的产生(从source进入社区)和消失(从网络中耗散到sink)的所有可能性都已经被考量。
使用社交网络对信息资源的传播进行建模和预测,必须借助网络结构之外的信息来形成假设。例如信息资源的内容,用户的特征等,因为人们不知道如何对可以一次都不被传播,也可以被传播无穷多次的信息资源提出期待。然而在注意力流网络上,注意力的分配和流动受到整个网络对注意力吸收与耗散必须平衡这个条件的约束,使得我们有可能基于这个约束条件,写下关于注意力流动的方程。
广义的Kleiber定律
一个有趣看待互联网社区的视角正在产生,然而这只是研究的开始而不是结束。使用语言描述事物,是原始人也具有的本能,科学训练的核心,在于精确地描述事物。更具体地说,写下某个经得起检验的数学方程。
如果网络社区真的像生物体一样在新陈代谢,那么它必然会遵循与真实世界生物体类似的定律。在理论生物学界,有一个被称为Kleiber律的法则,被认为是描述生物体新陈代谢最强有力的理论。该定律指出,我们可以用生物体的体积来预测生物体的新陈代谢(例如二氧化碳的消耗量),具体来说,新陈代谢量与体积之间存在着3/4的幂律关系。老鼠个头小,新陈代谢也少。如果大象的个头是老鼠的100倍,那么前者的新陈代谢并不是后者的100倍,而是100^3/4 ~ 32倍。从小细胞到大鲸鱼,从飞鸟到爬虫,这条定律跨越了三十个数量级的生物体体积和亿万年的演化时间,普遍存在着。
网络社区之中是否也存在着这种定律呢?要进行这种讨论,首先需要定义互联网社区的体积及其新陈代谢量。计算士和Jake假设网络社区好比处于一个平衡状态的水池,不断吸收与排除常量的点击流,同时也维持常量的点击流在“体内”。于是前者就是社区的新陈代谢量,后者就是体积。将新陈代谢量和体积都定义为流,看似奇怪,实际上与从古希腊的赫拉克利特到薛定谔对生命的理解不谋而合。这些人眼中的生命,就是一个不断流动和改变着的系统,组成生物体的物质来自环境,且每隔若干年就完全更新。从这个角度说,生命体只是宇宙中一个小小蓄水池罢了。
计算士指出,如果我们选取一个合适的考察时段(例如一个小时),可以近似地假设每一个进入社区的用户都形成持续的点击,只有微乎其微的用户反复进入系统多次。这样,社区的新陈代谢量恰恰就是工业界常用的指标:不重复用户数(unique visitors, 简称UV);而社区的体积则是这些访客在这段时间内产生的总点击量,在工业界称为页面浏览量(page views,简称PV)。
确认可以使用UV代表网络社区的新陈代谢量,用PV代表体积后, 接下去的任务就是向生态学家学习,使用实证数据来验证两者之间的幂律关系了。Jake称这个尚待发现的假说为广义的Kleiber律。
大数据中的普适模式
数据。数据总是科研最初和最后的问题。从天文物理中的开普勒、化学中的门捷列夫,到生物学中的沃森与克里克,这些学科奠基者的杰出发现,无一不是站在前辈大量的实证观察的基础上。
计算士用PB级的百度贴吧数据,验证了Jake关于广义的Kleiber律的猜想。来自大数据的分析结果显示,他们的思路是正确的。
图A展示了三个百度贴吧的广义Kleiber定律。其中每一个数据点为贴吧在一个小时内的PV和UV。不同贴吧的数据使用不同颜色相互区别。论文中计算了三万个贴吧的广义Kleiber定律,并发现不同贴吧指数不尽相同。这些指数构成图C所示的均值大于1的正态分布。图B展示了Flickr和Delicious的广义Kleiber定律以供比较。图D则展示了从贴吧数据中拟合Kleiber定律的R方,均值超过了0.8,说明了这个规律的普适性。
黏度与用户之钟
对三万个贴吧的调查显示,虽然网络社区遵守着广义的Kleiber定律,但是其幂指数却不尽相同。究竟这些指数大小的意义何在,成为了新的问题。
计算士认为,广义Kleiber定律描述的是流系统在新陈代谢中,流量和存量的关系。因此其幂指数反映了一个系统把流维持在其自身内部的能力。这个理解受到了对生物学中Kleiber定律做了大量研究的G.B.West等人的启发。后者认为,沿着不同的进化路径形成的生物体遵循同样的规律,说明这是物理空间的维度对作为宇宙蓄水池的生命体的蓄水能力的普适约束。
在虚拟世界中,物理空间上的维度约束并不存在,取而代之的是时间上的约束。当然,从更广义的角度来说,所有的空间问题都是时间问题。河流不存在,古希腊战船不存在,牵牛花和织女星也不存在。如赫拉克利特所言,所有这些看似存在的实体,都是世界无穷无尽的流中,相对与另外一些流速度较慢的那些流,给同样速度的观察者,造成的幻觉。然而这种幻觉,在观察者的世界里,又是真实存在并产生着影响的,正如重力本质上是四维时空的曲率,温度本质上是一大堆分子的平均动能,然而我们能看到潮汐,也能感觉到冷暖。
网络社区作为虚拟生命想要活下去,就要吞噬用户的真实生命时间。要让用户进出社区的节奏变慢,让用户在社区内游走的速度变快,尽可能利用注意力,从纯粹的无中创造出新的信息资源,实现社区体积的增长。好的互联网社区,让用户在其中流连忘返,宛如山中一日,世上千年。用户手中的时钟,每接受一次新的信息就走一个滴答,因此在给定的寿命约束下,用户选择了让自己感觉到活得更久的方式:把更多的生命时间投入互联网社区,以更快的节奏接受和处理信息。这显然是互联网社区乐于看见的,因为在此过程中,社区得以不断成长,其扭曲用户之钟的能力也越来越强。
考虑一个马戏团的抛球小丑,他通过双手不停地倒换而同时让多个球保持在空中。尽管他的手只有两只,但他却可以通过加快换球速度来掌控越来越多的球。在这个比喻中,互联网社区就是小丑的手,用户就是不断运动着的球。
计算士建议使用网络社区的Kleiber律指数刻画社区的黏性,即吸引用户的程度,或者扭曲用户之钟的能力。这个稳定的指数既不取决于社区的绝对规模,也不随时间变化。从这个角度,一些比较小众的网站,虽然用户访问量不大,但却非常吸引人。
耗散模式
应该如何描述球在小丑手上的运动模式?这是接下来需要追问的问题。
显然,要刻画注意力流的一般动力学,不应该将过多的精力放在太过具体的问题上。过分详细地考证帖子的内容,用户的特征,就好像在研究行星运动时关注星球的表面褶皱和气候一样毫无必要。科学的本质在于忽略信息。最伟大的科学洞察,往往是忽略了最大量的信息所看到的简洁之美。
重新比较生物个体与互联网社区,会发现两者之间唯一的共同之处就在于都有着一个“流网络结构”。注意力流的网络结构,是否就完全地决定了社区的黏性呢?如果确实如此,又如何刻画流网络的结构?
Jake建议考虑每个节点上通过的流和耗散之间的关系。实证数据中发现,这两者之间也存在了幂律关系,可以称为耗散律。其指数实际上反应了系统内流的输运速度。系统的输运速度较快时,用户尚未离开社区之前,就已经被转移到下一个节点(想想小丑手中的球),所以不易流失。
上图比较了三种理想的网络结构。图A网络的黏性很小,因为所有用户只访问一个网页就离开系统。图B和C具有类似的拓扑结构,但是两者的耗散律指数却不同。C的耗散指数更大,因此能更高效地将用户输运往下一个节点,避免用户流逝。
所以从互联网社区经营者的角度,加快用户彼此之间的相互作用,不断地给用户新的刺激来拨快用户之钟,就能够提高社区的黏度,更快地促成社区的成长。然而正如一个城市、一个国家难以一夜缔造,社区的成长也有偶然性。过分地把用户之钟拨快,以至与用户在真实世界生活和大脑信息处理的约束产生矛盾,只会适得其反。
利维坦
[图片源](http://zh.wikipedia.org/wiki/%E5%88%A9%E7%BB%B4%E5%9D%A6_(%E9%9C%8D%E5%B8%83%E6%96%AF)
作者认为,他们的研究首要目的并不在于为互联网社区的发展提供实际的指导。比起这个研究,现有的许多机器学习方法,能给互联网公司带来更多实际的好处。
据说,这是最坏的时代,也是最好的时代。一切都在迅速地变化,每一次技术进步都在迅速刷新世界观。人们聚到一起热情洋溢地谈论深度学习,3D打印,智能硬件,以及硅谷和北京某些巨无霸互联网公司的传奇历史中不为人知的隐秘片段。五百年前的大航海时代,人们也是同样激动地谈论着西班牙和葡萄牙的远征船队,从古老的东方带来的黄金和香料,以及由这些珍贵资源引发的宫廷秘闻。我们置身其中的这场信息技术革命还将持续多久目前仍然难以预料,但有一点是肯定的,互联网最终将会把所有人紧密联系在一起,把个人的生命史,变成社区历史的一部分。就如当年的大航海,把民族史变成了世界史。
每个人都在谈论大数据及其影响。一些科学家充满乐观,另一些则忧心忡忡,更多则是放弃哲学思考,埋头于更快速的计算,更大量的数据,希望获得前所未有的复杂知识。在这种背景下,计算士等人的研究显得有些格格不入,他们坚持自己是古典主义物理学的继承者,希望以简单定律总结庞大的数据。
“想想第谷、开普勒和牛顿吧,大量的数据并不意味着大量的知识”,Jake不无感慨地说道,“第谷搜集了大量的数据,却要等着开普勒来消化,但最终的伟大胜利属于牛顿,因为只有他写下了简单的方程。”
“我们真正的兴趣在社会系统和集体行为”,计算士说道,“单个用户的单次点击几乎是不可预测的,但是大量用户的注意力必然有律可循。我们更新的研究已经发现,集体注意力的流动像水流一样有着明确的方向,受信息空间的某种“势能”约束。总结来说,我们开拓的方向可以称为注意力动力学,最终也许它会像牛顿力学一样精确地描述注意力与信息交互。”
人类社会系统会如何演化?古典主义政治学家霍布斯曾预言,国家就像圣经中记载的怪物利维坦,一旦成长,就吞噬自己的子民。是否我们有朝一日会发现,我们的确亲手制造了一个吞噬我们自己的怪物,只不过这个怪物不是国家,而是互联网?
“或许吧,” 计算士陷入沉思,“人类集体行为的全部魅力,就在于它的行事逻辑个人难以理解。就好像单个脑神经难以理解大脑的思考一样。所以我放弃了从逻辑上理解集体行为,而致力于物理学的唯象理论。从唯象的角度,没有因,也没有果,只有实在,所有的学问,在于如何最简洁地描述实在。这种方法强而有效,也是人类科学中最核心的基石。”
“在国家发展的早期阶段,古希腊城邦就已经有了驱逐公民的法律。现在的互联网社区也有这个现象。牺牲自己的一部分来保全自己,这已经超越了简单的新陈代谢,近似于自由意志和智能的表现。”计算士介绍道,集智俱乐部的许多成员,都认为人与机器将共同进化,而个人的智力和意志,最终成为更大的智能体的一部分。
“不过这又有什么关系呢?我们从来就不是作为个体活着。自由本来就是一个幻觉。我们和群星一样受物理规律制约,作为从创世之处就一直存在的宇宙秩序的一部分存在;我们的肉体形态由亿万年来所有生物集体演化形成的DNA塑造;我们的思考由千百年来形成的文化模式规制。。。”
“其实最核心的驱动力是孤独。急于融入互联网社区的用户,希望成为更大无形生命体的一部分,本质上是用自己的生命时间换取免受孤独的权利。”
“在利维坦和彻头彻尾的孤独之中选择一样,你会选什么?”
“我也许会选择利维坦”。计算士说道。
网友评论
简而言之,所有的信息/点击/关注都是针对页面才能存在的,脱离了页面就不存在上述这些内容(前提是我们讨论的是现在的互联网),因此页面对于后者来说是容器。
在这个模型中,我们基本不考虑“用户”这种客体的存在——事实上,你文章的模型就是将用户剥离的,所有一切都关注在信息/点击/关注这一个抽象对象上。既然不存在用户了,那再说页面是“创造的信息量”就是不合理的,因为页面不被创造,虽然页面构成的网络具有复杂网络中常见的动态特性。
然后,关于页面而非流在社区内的存量这件事在我看来是关乎研究的目的的。
比如,就我上一条回复所言,我的关注点在于不同类型的网站的Kleiber系数是否对网站类型构成分类依据,在这个问题上,流在社区内的存量这个量本身并不具有很好的指示性,因为问题本身的一个客体对象是网站的类型,而直接反应网站类型的是页面,而非页面上的流——这两者当然是具有对应关系的(比如你正文中在流与耗散的一节中有提到),但这就是一个直接关系还是间接关系的问题了。
当然,这取决于你打算用这个模型来解决什么问题,或者这个模型的主着眼点是什么,并没有统一的标准。
因为对于类似URL输入和关闭页面这样的行为,你根本无法统计出所谓的“关注量”或者“点击流”。这等于是给了一个无限大系宗与所要考察的系统接触。
当然,这样的做法也不是不可以,但对于最终数据是否引起可观的偏差呢?
简而言之,对source作细致分类当然是深入研究后才要作的,但如此截然不同的两类source是否具有同样的动力学性质从而可以被归为一类来考虑却是在建立模型初期就要考虑的事情。
对这个问题的讨论可能比较形而上,但还是请考虑这么一个问题:如果有一天我们发现了外星生命,那么它们的Kleiber参数(就是体积和新陈代谢量的幂次关系的那个幂次)还是3/4么?
如果来自不同星球产生自不同环境的截然不同的两个生物的Kleiber参数居然是相同的,那我想这也许可以称为神迹了。
于是,这就引出了接下来的问题——两个完全不同类型的网站/社区的广义Kleiber系数是否相同?如果不相同的话,和什么因素有关?
个人认为,这和这个网站/社区本身的特性有关——而当我们用全部统一的“点击量/关注量”来做参数衡量的时候,这种特性有可能会被掩盖掉。
所以,个人认为体积为何不用一个网站/社区的有效页面数(而非页面总数)来衡量呢?
这样说不定可以用广义Kleiber系数为不同网站做一个分类,并考察网站类型等属性和广义Kleiber系数之间的关系。
然后,楼主说“点击流网络上的注意力流量是守恒的。每个节点的入流必然等于出流”,这个在我看来就有一点不同意见了。
首先,如果说注意力流是守恒的,那么初始注意力从何而来?
网络从无到有,网站从无到有,如果注意力流始终是守恒的,那么也就是说这个流在任何一个时间节点上都应该精确为0,因为网站还没有、互联网还没有的时候点击量必然为零。
而这个问题的根本原因就在于——人们进入一个网站(或者说社区)的操作方式实际上有至少两种:
一,是通过Link进入这个网站(社区);二,输入URL。
请回想你打开浏览器直至进入简书/集智俱乐部的过程。现代浏览器会自动将上次关闭的页面自动打开,但当你第一次安装好电脑的时候,浏览器打开后是启动页面(此时不存在“上次关闭页面”),然后你是怎么做的?你会在地址栏输入简书或者集智的URL,然后进入网站。或者你通过收藏夹,但这也是浏览器自己帮你在地址栏输入URL。
从这点来说,这里将输入URL进入网站所贡献的“初始点击源”给忽略了,我觉得不合适。
我们虽然可以将其简单地归类到Source中,但这个Source不是社区外的别的社区,或者网站外的别的网站,所以和这里所研究的点击流网络本质上从属于不同的类别,所以不能混为一谈。
与之类似的还有用户直接关闭页面的行为,此时的Sink不隶属于任何一个具体网站,而是直接关闭,没有后续了——这种终点和进入别的网站的跳转是完全不同的两类行为,就和输入URL造成的进入网站一样。
上述是其一,但还有其二。
用户点击链接进行跳转,容易给人造成一种“从一个页面跳转到另一个页面”的错觉。
但事实上,未必如此。
以Wiki来说(因为Wiki上这样的发散情况最常见),人们进入一个Wiki页面后,会在从这个页面打开多个别的词条页面——虽然我们可以说一个人的注意力同时只能集中在一个页面上(其实不排除宽屏左右两个页面同时浏览的情况,但我们总可以说视点只能在一个页面上,虽然也不排除有些奇人,但小概率事件就不考虑了),但就点击这一行为以及点击所造成的页面跳转这一现象来说,这是典型的一到多。
我们可以将用户将其注意力从页面A切换到页面B看作是从一个Source进入或者离开到某个Sink,但就实际网络世界中所发生的点击记录来说,却完全不是这么回事——这里没有发生实际的点击。
当然,相对于此前说的第一种情况,个人认为第二种情况也许不是那么重要。
正好有个地方讨论讨论总是不错的嘛~
1,最核心的是pv和uv之间的幂率关系替代常用的pv/uv/t及其他指标,如果结果正确的话感觉有很大意义。
2,幂率含义讨论用户之钟这个概念完全摸不到头脑,无法量化也无法讨论吧。
个人感觉用户群和互动机制应该更好些,特别是贴吧这种。
3,幂率的含义是这个研究里最有价值的东西吧,说明了什么方向可以培养更有粘性的用户,更深层的可以作为交互机制是否优秀什么的标准。
又看了一遍,感觉无关的形上讨论过多了,干货略少。。
而且,我写的东西和集智俱乐部的风格不是很搭,所以也就没再过去写。。。
听纤纤说你们在研究网路网站的模型构建,顺利不?
这是你看了引的那篇文章写的读后感?作者JK是什么意思?
利维坦那部分是你自己写的?plos one里那篇没看到这个。