【读书笔记】《新数字秩序的革命》

作者: sirenyunpan | 来源:发表于2018-04-24 13:46 被阅读0次

写在前面

读《新数字秩序的革命》时我的内心感受可以由以下一串词语来概括：知无不言、言无不尽、尽而不乱、乱而不杂、杂中有序、序中有理。
我打开此书的第一件事便是翻阅目录，当时我在心里默默吐槽：书如其名，目录无序，各章节之间似乎毫无联系，简直让人不知所云。但是我还是硬着头皮开启了数字秩序的探索之旅，前前后后花了四天的时间将它看完。虽然由于鄙人的理解能力有限，加之背景知识了解不多，这本书中很多关于哲学的叙述我都还一知半解，但是还是受到了一些启发。
合上书之后，我整理了这本书留在我脑海中的足迹，绘制了下面这张思维导图：

图一数字秩序的三阶

接下来，我将根据这张图来谈一谈我观看此书后关于“数据”的一些新的认识。

1、更关联的数据

“人们总是佯装能把事物从深层上变得分等级、可分类且有顺序，但实际上根本不行。一切都是深深互相关联的。”泰德·尼尔森（Ted Nelson）如是说，这个有远见的怪才在20世纪60年代中期提出了超文本这个词。
——《新数字秩序的革命》

在三阶秩序中，数据与数据之间的联系越来越紧密。你在百度搜索“玛丽·居里”的时候，你除了能够了解到这位伟大的女性波兰科学家发现了放射性元素镭和钋之外，还能得到一系列外国著名化学家和诺贝尔物理学奖获得者的主页链接。如下图所示：

图二

人们也不再习惯按照按照阅读一本书那样的线性顺序来获取信息，他们充分地发挥自己的“联想”，这一秒在看奥黛丽·赫本的传记，下一秒就打开网页搜索她和纪梵希之间的关系，也许再下一秒又忍不住去看看imdb上排在《罗马假日》之前的电影是哪些。
超文本打破了线性阅读，将不同地理位置的、不同数据库里的信息连接在一起。

提到数据与关联这两个词，就不得不提Linked Data了。
万维网的发明人Tim Berners-Lee提出建设语义网（Semantic Web）来让数据得以共享，并将数据联系起来，产生数据与现实事物的联系，以方便人与机器阅读与理解这些数据。但是语义网目前还是一种长期目标与愿景，而关联数据是一类实践活动，其可行并实用，成为当前语义网实现的一种最佳可行方案。

Linked data is a set of best practices for publishing and deploying instance and class data using the RDF data model, and uses uniform resource identifiers (URIs) to name the data objects. The approach exposes the data for access via the HTTP protocol, while emphasizing data interconnections, interrelationships and context useful to both humans and machine agents.
——Michael K Bergman

2、更复杂的数据

与一阶秩序和二阶秩序中的原子载体数据相比，伴随着三阶秩序产生数位数据更加复杂。一是类型更复杂，文本、图片、音频、视频都是现在应用得十分广泛的数据类型；二是数量更庞大，以PB、TB为单位的数据量级说明了数据量之“大”；三是数据质量更加参差不齐，错误、格式不一致、无序的数据委实令进行数据清洗工作的人员叫苦不迭。
但是我认为以上三点都不是复杂的真正原因，真正的原因是我们关心的不再只是数据本身，我们更加关心数据与数据之间的关系。我们不再只存取传统的结构化数据，我们也希望直接存取那些非结构化数据，于是从前的关系型数据库不再能完全满足我们的需要，NoSQL数据库技术应运而生。

3、更大众的数据

人人参与“挂树叶”
书中不只一次地提到“标签”这个词语，并将用户为flickr上的图片添加标签、为亚马逊上的图书添加标签、为iTunes上自己创建的播放列表添加标签、为delicious上的网页收藏夹添加标签。反过来，用户又通过标签来搜寻自己想要的数据。
我认为传统的分类方法是按照某一个标准、自上而下地将一个集合里面的数据细分成一些没有交集的子集（也即分割），人们搜寻的方式是根据求不同分类标准下不同集合的交集来实现的。而标签这种新兴的大众分类法则是一些元素自上而下地根据自身标签主题的相似性而不断聚合形成集合（也即聚集）。
由标签聚集而成的集合与传统分割而成的集合相比，具有两个特点：一是更小，二是更加符合用户的认知习惯。因此人们能够通过搜索引擎更加快速地搜寻到标签聚集而成的集合，也能更快地在这个集合里找到自己需要的数据。
“知识的守门人”的权力被削减
在过去，出版社的编辑的权力至高无上，他们决定读者能够在纸张的什么地方看到哪些知识，他们也决定哪些数据内容可以被发表。
但是随着提倡个性化的web2.0的发展，大量的UGC（User Generated Content）内容如雨后春笋一般层出不穷。比如早年间的天涯、如今知乎，只需要注册一个账号，不需要经过编辑部的审核，用户便能够输出自己生产的内容。虽然这些内容中的绝大部分都不能称之为“知识”，但是这些UGC平台确实已经成为广大群众获取讯息、解决疑惑的主要帮手了。

信息组织哪些面临的任务与挑战？

我认为web2.0由用户主导而生成的内容互联网产品模式确实带来了互联网时代的繁荣，但是也由此造成了书中所说的“混乱无序”，就如同下图中植物的根部一样：

图三

未来，信息组织需要做的就是将这些混乱的本质埋藏在地下（就好像黑箱技术），将这些根长成的植物呈现在人们面前（真实、准确的、经过可视化处理的数据）。
当然，这个过程是充满艰辛的，比如说：

1）用户UGC内容的筛选过滤
海量的用户原创内容杂乱无章，降低了人们进行搜寻的效率。未来的信息组织工作的任务包括：①将用户生成的内容信息进行整合，使得内容信息的特征性更加明显，便于检索；②将精确地阐明信息内容特征的标签进行整合，提高信息描述的精确度，从而便于互联网用户的搜索与整理；③对广大互联网用户发布的信息做不同可信度的分离，将可信度高的信息推到互联网信息检索的首项，同时提高提供真实信息的互联网用户的可信度。
2）基于用户体验的个性化推荐
以用户体验为中心，分析不同用户的偏好与需求，并提供千人千面的信息检索结果依旧是值得继续探讨的课题。
但是，越接近极致的个性化推荐对用户而言越有利吗？

越来越智能、个性化、联想和相关性的网络，可能并不是一件好事，因为他会缩小我们的世界观，把我们困在一个『网络泡沫』之中。
——网络组织者先驱Eli Pariser

我想在进行信息检索结果的排序上，用户偏好所占的权重是需要深思熟虑的。

网友评论

本文标题：【读书笔记】《新数字秩序的革命》

本文链接：https://www.haomeiwen.com/subject/iggmkftx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！