语义，词典，树与网

作者: LostAbaddon | 来源:发表于2015-02-23 01:54 被阅读637次

语义，词典，树与网
HTML的语义化和一些简单优化
如何使用wordnet
0.NLP技术总览
语义网——web3.0的基石
连接未来的网络——语义网
从语义网到知识图谱——语义技术工程化的回顾和反思
31 语文学习的工具（网站、书籍）
词义相似度计算
语义网研究系列（一）——语义网的产生

卷首语

前阵子在看《符号学与语言哲学》。
　　这种跨种族啊不对是跨学科的看书总是很酸爽。
　　然后，拖了很久，今天打算写一篇关于这货的东西。
　　当然，仅仅是关于其中“字典与意义”这一部分的。

老规矩，说是说写关于这本书的，其实和这本书没多大关系，两者交集甚小。

关于符号

关于符号与语言，之前写过两篇东西：《符号与语言》、《思考与语言》。
　　简单来说，符号（包括语言）是人的思想的承载者，是思想的表现，这就导致了一个显而易见的问题——符号究竟如何表达思想？
　　以语言来说，a这个字母所表达的意义是什么？在英语中表示“一个”这样的量词意义，但a本身可以仅仅是一个字母从而不表达任何意思——比如说字母b就没有任何意义，直到某个语言将b选出来赋予一个意义位置，比如b语言（真的有么？？？）或者“两个”（你够了！）。
　　因此，作为符号的一种的语言本身不具备任何意义，意义是后期人们指派上去的，所以是一种约定俗成。
　　于是，这里就可以分解出两个次级问题：
　　1，被赋予的意义本身从哪来的；
　　2，为何如此给符号赋予意义。
　　这里，很显然，第一个问题更重要也更基本。

意义的来源

关于符号意义的来源，让我们来考虑一个纯粹思想的实验：

假定，有一个生物，它是如此之简单，以至于所有我们人类所拥有的高级感官都不存在；同时，它又是如此之复杂，以至于它可以清楚地知道自己的感受是什么——所以，这样的妖孽是不存在的，我们只是假设一下——那么这样的生物所能形成的符号，有哪些？

我们当然不能断然地说这样的生物的脑海（按照我们的妖孽设定，应该是有“脑”海的）中空空如也——事实上，语言文字乃至所有的符号仅仅是思想的承载着，所以势必是先存在思想，然后再被符号化的。我们的妖孽生物当然是缺少“符号化”此一能力的，但我们不能　认为它的脑海中什么都没有。
　　由于它没有任何高级感官功能，所以它能具有的只能是最基本的生物性的本能，比如条件反射。
　　生物的定义中便包含了这么一条——可以对周围的环境刺激作出应激反应。因此，收到输入，然后做出反馈，只是生物的本能。如果一个物体不具备这样的基本行为反应模式，那么要么它不是生物，要么它曾是生物——现在挂了。当然，更高级的比如装死这种，我们就不在我们的妖孽问题中讨论了。
　　这种应激反应是很简单的根据输入反馈输出的模式，而且它是如此之简单——比如感受到光与热就移动过去，如果太热就移开，如果一段有可以吸收消化的东西一段没有就朝有的那一段移动，等等，这是都是细胞级的基本反应——以至于都可以被规约为“如果……就……”这样的范式——当然，如果的未必是具体的事件，而是一类综合刺激条件。
　　因此，我们的妖孽在最少的程度，也可以通过漫长时间积累的条件反射来在脑海中形成最基本的“逻辑”的概念，以及那一类综合刺激条件的概念——从而，最最简单最最基本的妖孽生物的脑海中也会存在两大可被符号化的概念体——具象的刺激，与，抽象的逻辑。
　　那么，这两个最根本的概念体的本意从何而来？
　　具象的刺激来源于那些具体的妖孽细胞所受到的刺激，而抽象的逻辑则源自对生物本能的抽象。
　　当然，这里不得不说的是：实际生物圈并不存在这样的妖孽细胞，所以不存在这种简单的结果，但人造亚智慧体就说不定了。
　　就实际生物来说，在它们强大到足以进化出语言文字之前，思考已经存在（当然，前文字等符号也必然会存在，但个人始终坚定地认为，即便是前文字等符号，也是晚于思考的出现的，更别说从不会思考到具有思考能力的进化过程本就不是突变的而是渐变的，所以还会出现比人类的思考简单得多得多得多的“前思考”，比如纯粹的直觉），而后由于交流的需要而形成各种人造的符号，这些符号的形成也都出自上述两个源泉：对真实世界的总结，与对抽象过程的总结。
　　符号的一个意义是表征、迹象，这在考虑纯粹动物性的行为的时候也很有帮助——比如进化程度没有达到人类这样的高度的生物，它们依然可以通过地面上的爪印、周围别的生物的排泄物的味道等等感官资料来明了危险就在身边——埃科在《符号学与语言哲学》中曾不无酸意地调侃着地问到那些能看到大洋上各种水文与气象环境的意义的水手难道说比符号学家更了解符号么？就事实来说，答案是肯定的，因为了解符号形成过程与内在逻辑本质的理论的人在真实的实际的符号面前完全有可能是白痴，所以在这里我们可以说：符号学家在面对自然界的符号以及它们的意义与内在逻辑本质的时候往往连草原上的一条鬣狗都不如。
　　这些自然界中的符号的意义的来源，很显然地源自那些生物长期的生存本能以及对真实世界的观察总结——当然，不要看到“总结”一词就傲娇地认为是人类专有。

说这么多，就是为了说明一点：符号的起源是现实世界，所以符号的意义也必然源自现实世界。

但这话又显得有问题——你告诉我例外群在现实世界的哪里？Finsler几何又在现实世界的哪里？
　　中土世界在哪里？福尔摩斯又在哪里呢？

这些问题，其实就和之前提出但是之后被忽略的另一个符号意义的来源有关，那就是有些符号的意义源自对抽象概念对象的再次抽象化——比如说，我们的妖孽细胞原则上可以分析出“如果……就……”这样的形式逻辑概念，因为它们是源自生物本性的，是应激反应的抽象化，所以原则上是可以被妖孽细胞总结形成的。
　　同样的，无论是抽象中的最艰深者现代数学，还是文艺作品想象世界中的虚构人事物，本质上它们都可以认为是对现实世界中实在之物在思想世界中的抽象对象的二次处理——可以是对它们的抽象与总结，也可以是运用这些抽象之物的再造与重构。
　　换言之，符号的意义可以直接源自现实世界，也可以源自那些直接源自现实世界的概念之物的二次处理甚至更高阶。

从这点来说，符号的意义本身既收到现实的影响，也受到符号使用者与接收者的主观意愿的影响。

这点具体到语言与文字上，就体现为这么两个基本现实：不同环境的人所使用的语言中，相同的对象所对应的词汇就算再接近，也总会有所不同；以及，每个不同的人对同一个词汇的使用也总是存在一定的差异的。
　　如果说着说明了符号的意义的来源的话，那这种来源显然并不牢靠。

意义的差异

对于一套语言的使用者来说，在一定的时间段内，大概总会出现这么一种情况，那就是人们对于大部分术语的意义都有一个基本确定的能指范围——当然，对于那些只有极少数人使用或者本身就处于不断变化着的领域的术语就不能作此要求。
　　于是，一个人所说的一个词或者所作的一个符号的意义，大致可以分解为三部分：
　　<big>实际词义＝基本词义＋语境词义＋私语词义</big>
　　比如说，在电影《PK》中一开始有一段是PK和女主在监狱里，PK就说，同一句话就有四种不同的意思，配合四个不同的使用场景与人物表情。
　　实际生活中语言的使用就是如此——同样的一个“羊”，在学术领域可能表示的是牛科的羊亚科，也可能表示某种抽象的羊（作为生肖的羊，或者说是山羊与绵羊等的统称），也可能是指具有羊的形状特征的物体，或者某个具体的动物，甚至仅仅是表示“羊”这个字。
　　比如说下面这些场景：
　　1, A：“前面那是什么动物？”B：“羊。”
　　2, A：“这个雕塑是什么？”B：“羊。”
　　3, A：“那是什么动物的叫声？”B；“羊。”
　　4, A：“到底是这头羊还是这头牛把这里的草吃光的？”B：“羊。”
　　5, A：“这副壁画太抽象了，到底画的是什么啊？”B：“羊。”
　　6, A：“你属什么？”B：“羊。”
　　7, A：“你写的是什么字啊？”B：“羊。”
　　8, A：“你说羊驼是羊还是鸵？”B：“羊。”
　　你看，所有这些问题的答案都是相同的，但所代表的东西却完全不同。
　　当我们在看到答案“羊”的时候，除了“羊”这个字的基本含义——生物学上羊亚科的那些动物的总称——外，这个字符还蕴含了很多别的信息，且这些信息大多都可以通过上下文也即语境来做出区分——甚至于，许多情况下符号的使用并不涉及这个符号所代表的意义与你想表达的意义到底是否吻合，比如羊驼实际上是鸵科的，但我却依然可以说我认为羊驼是“羊”。
　　因此，符号或者说术语的使用与符号本身的基本意之间并不必然有限定关系。
　　在《黑暗托马》中，女主角的形态在人、蜘蛛等等形态之间连续过渡般地变化，而男主角也在人与猫之间忽左忽右。这里作为符号的“我”的具体意指与它的实际形态——文中的“我”当然还是人——并没有必然的关联。
　　换言之，无论我们如何精确一个术语在公共语言体系中的基本义到什么程度——无论是按照波菲利之树的层次递进分解还是按照百科全书式的属性剥离——在具体术语与符号的使用中，都可以完全不管这些基本义而做任何可能的衍生与流变——这既是术语之上的句、段、文的整体性意义所为——也即语境词义——也可以是一些私人化的语言的使用所导致的。

再说那私语词义。
　　私语的出现显然必然地遭遇真正的语言的形成。人与人之间的交流的出现使得不同个体的私语相互磨合彼此妥协，并最终形成一个群体公认的基本词义。
　　但公共语言的形成并不表示私语的消失。
　　比如说，当我说“粒子”的时候和一个普通的路人所认为的“粒子”就可以是完全不同的。
　　一来，普通公共词汇中的“粒子”所指的可能是一粒一粒的小颗粒，但还是属于宏观世界，但在一个学过物理的人眼中的“粒子”却是说的分子、原子甚至是亚原子粒子。学过理论物理的人所为的粒子基本所表示的是“规范群的生成元”。
　　这些还是不同团体之间的“小集体私语”现象。
　　再具体到个人，我所谓的“粒子”指的是“符合某规范群规律的P维实体”，而在一个超标准理论支持者看来可能是“例外群E8的生成元”——这如果还属于是流派之争的话，那么任何两个支持最正统标准模型的人所说的粒子也可能有些微差异——有些人可能认为E8的每个生成元都代表一个粒子，而有些人可能认为这代表了一个基本粒子的不同状态，等等等等。
　　事实上，就算是在理论物理学界内，所为“正统”与“主流”也仅仅是一个模糊的范畴性的说法，是一大类彼此足够近似却又并不精确相同的观念的总和——甚至于，几乎可以说就算是同一个领域同一个流派同一个假设的两个同行，对于许多概念的细节理解都是彼此不同的，因此当具体到一个确定的术语的时候，大家的理解也并不完全相同——但可以做到“彼此足够近似但却不精确相同”。
　　这其实也就是术语与符号的基本现实——基本词义就是一个群体中“彼此足够近似但却不精确相同”的东西，而私语词语则是那“并不精确相同”的“毛糙”部分。
　　而，使用理论物理这个例子的好处是可以最大程度地消除“语境词义”的干扰。

当我们研究一个术语与符号在实际使用过程中的意义时，语境词义是非常重要的东西——但，也因此是无法被完备地归纳的东西，我们不可能穷举所有可能出现的情况来为语境词义建立一张表或树或者别的什么分类学上的表征，这从可操作性上来说就不可为的。
　　因此，我们对术语与符号的意义的分析只能到基本词义与私语私语这两个层次——而后者又因为强烈地依赖个体经验与感受差异，从而也是实际上很不具备可操作性的。
　　我们最终能做的，也就是来寻找那些基本词义是如何诞生的——然后将其类推到私语词义上，并结合具体个体的具体经验与感受等个体性内容。

基本词义

对于基本词义的固化，我们最早接触的就是各类辞典。

词典本质上是建立了一种一对多的映射，即你输入一个术语，便返回这个术语的几个基本词义——当然，一套完美的术语体系的词典理应是一一映射，一个确定的术语代表一个确定的词义，但实际上的自然语言却不可能做到这点——所以才有了基于双关（基本词义或者语境词义在一句话中的一对多映射）的各种语言艺术形式，包括笑话。
　　从形式上说，词典罗列了术语而不加区分。而从功能上说，词典给出了术语的基本要素——意义。
　　但，罗列显然不是一个好的系统化方式，于是在罗列即词典的基础上，我们又可以引入两套相关但不同的整体体系——树与网。

树

让我们考虑这么一个场景（而且也是实际生活中必然会遇到的场景）：
　　我们有海量的文件需要整理，方便日后搜索，那么请问应该如何整理这些文件？

一个比较传统的做法，那就是建立一个目录树，然后将不同的文件放置在不同的目录下。
　　比如说，我有50GB的电子书（这是真的，而且这还是还几年前的存货量，现在也许已经上百G了……），可以先按照文学、实用、技术、科学、人文这几个大类，在第一层分出五个目录。
　　然后，文学下又分出小说、纪实、散文、杂文、诗歌这五个目录，实用下有词典、百科全书、菜谱、旅游、其它这五个目录，技术下有编程、美工、电脑维修者三个目录，科学下分出数学、物理、天文这三个目录，人文下分哲学、政治、历史、经济、社会、法律这六个目录。
　　每个二级目录下还可以再继续细分，并在按照内容无法做出区分后，再按照作者与年代做区分——比如在物理下，有理论物理，理论物理中有相对论和量子力学，相对论中分索恩、惠勒、彭罗斯、爱因斯坦、霍金。
　　这样的目录法可以将任何一份文档唯一地确定到一个路径。
　　这样的方法不但在文件管理与知识管理中可以用，在实际生活中也可以说是大行其道，比如图书馆中的书刊分类，也比如博物学中的分类学，或者生物学上的物种分类（这部分听说还有好几套不同的分类方法），或者语言学中的波菲利之树。

事实上，树状管理的基本思想，便是不断地寻找同一个节点中复数个元素之间的差异，并对这些差异做出归类，总结出几个最大的差异点，然后做区分——这样的做法总是可以不断进行下去，直到每个分岔的末端（所为的叶节点）只有一个元素为止。
　　甚至于，我们可以将整棵树做成二叉树——也就是每个节点都根据某个确定属性的有或无来做区分，有是一类，无是一类，并最终以只有单一元素的叶节点为结束。
　　因此，树状管理或者说树状分类的根本就在于寻找独有特性与“分岔”——在波菲利之树以及亚里士多德的词典中称为“种差”。
　　就如之前说词典的时候提到的，一个完美的语言，每个术语与意义之间应该是一一对应的——这不但要求一个术语之具有唯一的确定的意思，也要求一个意思只有唯一确定的术语可以表达。在这种情况下，这种完美的语言的波菲利之树应该是完全够用的，任何其它形式的术语管理都必然会无差别地规约到它的波菲利之树上来。
　　但，这对于实际的天然语言来说却是不可能的。

天然语言的特性，在于它的术语和意义之间不是一一对应的——一个术语往往具有复数的意义，而一个意义也往往可以用复数个术语来表达（这里说的是同义词而非近义词）。这就导致了一个问题，那就是一个术语往往同时存在于波菲利之树的多个叶节点上，而有些叶节点内又同时存在多个术语，这显然会造成一定的困扰。
　　另一方面，树状管理还有另一个本质性的问题，那就是分类方法或者说索引规则是没有统一标准的——所以，到底按照什么标准来做每一层类别的划分，其实存在很大的任意性。
　　我们还是以电子书的整理为例。

在电子书的整理中，我们基本必然会遇到这样的情况：
　　一本书既是说广义相对论的，又是说规范场论的，作者还是两三人合著，即是教材，又是论文集（这在一些前沿领域是常态，比如我手上有三本超弦入门教材实际上就是十来位不同物理学家各自的论文汇总而成的论文集）。
　　那么，这里同时存在上面所说的两个问题——
　　一本电子书可能同时位于广义相对论与规范场论这两个目录下，也可能同时位于惠藤与温伯格这两个目录下。
　　同时，我到底是根据作者来分，还是根据种类（是教材还是论文）来分，还是根据学科来分呢？
　　更要命的是，无论以什么索引规则来建立索引，我都会遇到这样的情况：某一层的多个目录的下级子目录的结构与命名是完全相同的：广义相对论下要分惠藤、温伯格和霍金，规范场论下也要分惠藤、温伯格与霍金。
　　相同的结构在不同的目录下反复出现，这可以说是这种类型的大型资料数据库的树状汇整中所必然会出现的。
　　如果我们坚持在每个目录下放一本书的话，这会导致极大的冗余。
　　这，可以说是树状管理与分类的不可避免的弊病——只要数据库足够庞大。

对于语言学中的词义的分类来说，波菲利之树也面临同样的问题。

为此，在树状管理与分类之上，我们又得到了网状管理与分类。

网

网状管理与分类的方法，则类似于Web2.0早期就出现的“Tag法”，即为数据对象添加标签，而非分配到某个具体的目录下。
　　比如说，上面所提的电子书的例子中，一本多位作者合著的前沿教材就可以同时具有“广义相对论”、“规范场论”、“惠藤”、“温伯格”、“霍金”、“教材”、“论文”这些标签。

如果说，树状管理的本质是不断根据特定属性的有无来进行分裂，但本质上数据还是一体的从而是一元性的，那么网状管理的本质则是二元性的——现在我们所处理的对象分解为了数据本身，以及描述数据部分特征的“Tag集”。
　　树状管理中的数据会不断分裂归并，而在树状管理中的数据则一直保持整体不做分裂，而是单独抽出一层Tag层，我们所面对的是这个Tag层中的标签构成的网，然后通过这个网的节点来寻找对应的数据集。
　　因此，事实上网状管理本身也是二元的——我们先要根据数据总结出“属性集”，然后根据这个属性集为每个数据标上一组值，用来表示对应的属性的值（一般可以看作就是“有”和“无”这二选一的值），接着根绝这份属性值表来给出每个数据的属性集合（前面的属性集是所有数据的所有属性构成的集合，而这里的属性集则是每个数据自身所有的属性构成的集合）。
　　因此，我们事实上就需要进行“属性集的制备”与“建立数据的属性集”这两部，以完成最后的标签网的建立。

可见，网状管理的优点是数据的汇整更灵活，数据的查询与提取也更容易；但缺点也是显而易见的：当属性有很多的时候，我们依然需要对这些属性来做整理汇总，这样才能有效地实现管理的目的——此时，就会出现将数据的属性集视为数据的第二层网状结构，甚至更高层。
　　比如在LDA中，关键词可以看作是文章的第一层属性集，而关键词所属的专题则是这第一层属性集的属性集——如果需要，这个过程可以不断重复下去，直到出现一层“足够简单”的属性层。
　　当然，站在语言学对术语与符号的意义的整理的角度来说，找出每个符号所代表意义所具有的属性，并以这些属性来做归整，或许已经足够了。

总结来说，如果说树状管理的精髓是分类归并，那么网状管理的精髓就是寻找共同点（或曰属性），这显然是两个截然不同的方向。

当然，树与网也并不是非此即彼的——事实上，对属性集采用树状管理，那么得到的数据的管理结构也就是树状的；而如果使用树状结构中的目录全路径为属性的话，自然也就可以得到对应的网状结构。

词义

在明白了树与网（也即波菲利之树与百科全书法）之后，语义（特指基本词义）的分析也就有了可选的工具——对，这也仅仅是方法论层面的问题而已。

现实世界的自然语言中词义的形成，往往是树状与网状同时存在的。
　　我们在早期通过观察到的各种实体对象而不断建立抽象的符号的概念体，并不断地为这些概念题-观察到的实体对象做分类，这个过程是树状的。
　　但在初次感受之后，当我们在脑海中再次使用这些概念的时候，对这个概念的运用却是逐渐偏向于网状的。
　　事实上，随着我们观察到的事物的不断增多，我们倾向于为它们寻找各种共同点并做分类，逐渐将丰繁复杂砸的现实之物不断抽象出共同点来，最后逐渐形成一个最大的最抽象的概念——这可以说是逆向的树状管理，但却也不能算是网状。
　　而后，当新来之物被不断使用不断学习不断强化后，它们就会被归并到已有的经验知识体系中，这个时候却往往是以网状的形式进行新旧合并。

让我们回到术语的使用上来。
　　当我们之考虑基本词义的时候，树与网的意义何在？
　　恐怕，最大的意义在于：如果采用树状结构，我们可以知道一个术语是什么而不是什么；而采用网状结构，我们可以知道一个术语具有哪些特性。
　　当然，由于树状和网状并不是截然不同不可互换的（这点之前已经提过），所以并不存在“树状可以做什么而网状不可以”或者反过来的情况。

尾声

关于词典和词义这部分，基本上对此的理解就到这里的。
　　更深入的东西有些就太零碎了，这里就不说了。

嗯，作为羊年第一篇，就这样吧。

如果你觉得这篇东西写得还行，愿意打赏我一口咖啡，请戳打赏页～～
本文遵守创作共享CC BY-NC-SA 3.0协议**

语义，词典，树与网
卷首语前阵子在看《符号学与语言哲学》。这种跨种族啊不对是跨学科的看书总是很酸爽。然后，拖了很久，今天打算写一篇关...
HTML的语义化和一些简单优化
1、什么是语义化？必应词典的解释语义化是指用合理HTML标记以及其特有的属性去格式化文档内容。通俗地讲,语义化...
如何使用wordnet
介绍 WordNet是包含语义信息的英语词典。 wordnet根据单词的语义分组，相同语义的单词组合在一起称为sy...
0.NLP技术总览
分词常见问题分词标准序列标注命名实体识别(NER) 新词发现语义消歧基于词典与规则正向最大匹配反向...
语义网——web3.0的基石
（一）语义网从何而来语义网源于语义网络。百科中是这样解释语义网络的语义网络是一种以网络格式表达人类知识构造的形式...
连接未来的网络——语义网
什么是语义网（Semantic Web）？语义网的概念是由万维网（即我们熟悉的World Wide Web，也称...
从语义网到知识图谱——语义技术工程化的回顾和反思
本文转自知乎，原文链接：从语义网到知识图谱——语义技术工程化的回顾与反思 - 鲍捷的文章 - 知乎https://...
31 语文学习的工具（网站、书籍）
网站：古诗文网、古典网工具书：《古代汉字词典》《现代汉语词典》杂志：《咬文嚼字》
词义相似度计算
语义计算索引作业一词义相似度计算实现2种词汇相关度计算方法，基于词典与基于语料各一种基于Mturk-771进行...
语义网研究系列（一）——语义网的产生
(2010-03-24 16:11:56) 在业界工作久了，也淡忘了珞珈山上曾经的书生意气。翻出我的博士论文，挑出...