在笔者上大学的时候,校内最流行的互联网信息分享工具是BBS,类似Windows的文件夹系统,信息按照树状的结构组织。学生和老师可以在BBS上分享和获取学习、生活和工作等各类信息。在90年代初万维网发明之前,BBS是互联网上组织信息的一个主要的方式,好处是直观和容易搭建,但随着互联网上的信息越来越多,这种信息组织的方式也显得越来越力不从心,互联网上出现很多信息孤岛,如何把这些孤岛连接起来?
英国科学家Tim Berners-Lee在欧洲高能物理研究所工作的时候,就发明了万维网技术,把信息用网页(HTML)表示,用超链接HTTP协议把不同的网页链接起来,并且允许死链接的存在(网页404错误)。万维网一下子激活了信息组织的灵活性,使万维网成为了互联网上的最大应用。
万维网网之父Tim Berners-Lee希望把这个万维网技术向前推进一步,他称为“语义网”。万维网是以文档来组织的,我们所访问的网页、文件,本质上都是一个个文档,这使得更小的数据碎片化了。那么如果我们将信息降解到数据级别,降解到能够被计算机所理解的语义,我们就可以将当前网络上无结构或半结构化的文档转换为网络数据,从而使计算机与人更好的合作。举个例子,我们现在有两个网站,“当当”和“亚马逊”,它们上面都有卖《新华字典》。我们想要比较这两个信息源内容的时候,我们需要手动搜索或编写爬虫程序来爬取挖掘相关信息。但在语义网的基础下,因为数据本身就是构建网络的基本元素了,我们就可以很容易的以《新华字典》这个事物为起点,去寻找它的所有价格信息。从而实现更为智能的万维网。
然而,笔者的导师Nigel Shadbolt,Tim Berners-Lee和Wendy Hall在2006年发表的论文中坦承这个简单的想法基本上还没有实现。由于语义网的设计模型是“自顶向下”的,实现起来很困难,于是乎,学者们逐渐将焦点转向数据本身。Tim Berners-Lee提出关联数据(Linked Data)的概念,鼓励大家将数据公开并遵循一定的原则(2006年提出4条原则,2009年精简为3条原则)将其发布在互联网中。Leipzig大学项目组的学者认为语义网的基础首先应该是内容丰富的多元数据语料,这样的语料可以极大推动诸如知识推理、数据的不确定管理技术,以及开发面向语义网的运营系统,并提出了DBpedia项目,是目前已知的第一个大规模开放域链接数据。2012年维基媒体基金会推出Wikidata项目,这是一个大规模社区成员合作知识库,旨在用一种全新的方式管理知识。在中文社区,类似的项目有上海交通大学的zhishi.me、清华大学的XLore、复旦大学的CN-pedia。
关联数据技术直接促成了谷歌的知识图谱技术(Knowledge Graph)。为了提升搜索引擎返回的答案质量和用户查询的效率,谷歌于2012年5月16日发布了知识图谱。有知识图谱作为辅助,搜索引擎能够洞察用户查询背后的语义信息,返回更为精准、结构化的信息,更大可能地满足用户的查询需求。知识图谱技术继承了知识本体和专家系统的精髓,成为了当代知识表示和推理的重要技术。关联数据和知识图谱共同推进了互联网上大量数据的涌现,即大数据的出现。
网友评论