小结：超级叙词表的组织方式如上图，先将不同来源的词汇分配一个id，即AUI（注意，同一源词汇表中若收录了两次相同的概念，则分配两个AUI）；相同的AUI会连接到单个字符串标识符（SUI）；每个字符串会通过词法变体，如单复数来连接到同一个公共术语标识符（LUI）；同样意义的LUI会连接到同一个CUI。会选择一个词作为优选词，其他为同义词。

相同的LUI可能有不同的CUI，因为LUI只是根据词形来划分在一起的。（找例子？）

https://zhuanlan.zhihu.com/p/359377333

UMLS 的元数据词典是以概念为核心，依据概念（Concept, C）组织起来的。概念结构的设计方法是将同一概念的各种名称（同义词）和变种形式（单复数、形容词等词性变体）联系在一起。一般来说，表达同一概念可以有多个术语（即同义词），而每一个术语又有不同的词串表达方式，在超级叙词表中，多个术语体现为同义词，不同的词串表达方式体现为词性变体。

概念结构: CUI-LUI-SUI-AUI

（1）概念和概念标识符：每个概念被指定一个概念识别码（Concept Identifier, CUI），并给出了概念类别和概念的描述文本。相同 CUI 代表概念的同义词集合。

（2）概念名称和字符串标识符：概念名称是指概念的术语表示形式；SUI

（3）来源术语和标识符：来源术语（Atom Identifier, AUI），相同的字符串AUI被连接到一个SUI

（4）原形化术语和标识符：（Lexical Identifier, LUI）每个字符串都要进行词汇的原形化处理，如复数转单数等，其目的是将同一术语的各种词汇变体形式连接到一起。注意：很多词语中后面会跟上NOS，NOS表示没有另外说明的话，NOS是可以删除的。uninflect表示去变体。

http://www.omaha.org.cn/data/upload/portal/20171227/5a433253d7969.pdf

总结一下：CUI是概念的唯一标识符，LUI是概念的同义词，SUI是不同术语（LUI）所拥有的不同的英语表达形式（单复数/过去式/...）,AUI是原词

这四个表识符的关系是，AUI原词会有不同来源，但是相同字符串的AUI会被连接上同一个SUI；不同的SUI会由于单复数/时态问题有多种表达形式，但这些SUI都表示同一种东西，则会被连接到同一个LUI；不同表达形式的LUI会选出一个优选词赋予CUI

问题：不同的AUI是相同的字符串？？？？因为写法相同

Metathesaurus数据文件 Metathesaurus 有40多个元数据和索引数据文件

超级叙词表来源于超过200个词表的收录情况，如图展示了前十个

超级叙词表中包含了关系，除了收录来源词表中的概念，超级叙词表也继承和发展了源词表中的关系。这些关系大多来源于来源词汇表，或者NLM构建时添加的一些，或者来源于用户提供的。关系大多是AUI与AUI之间以及AUI和CUI之间的关系，因为这些关系大多是来源于来源词表的。关系文件不包含概念名称。

Metathesaurus中大约四分之一的关系还带有一个附加标签（RELA），该标签是从源词汇表获得的，可以更准确地解释关系的性质，例如is_a，branch_of，component_of。

语义网络

语义网络由两部分组成:语义类型(Semantic Types)和语义关系(Semantic Relationships)。

语义类型是概念的范畴分类,超级叙词表中每一个概念至少要被分配一个语义类型,语义关系则是语义类型之间的关系[ 12]。目前的语义类型有135个,可分为实体(Entity)和事件(Event)两大类[ 13]。实体指物理对象,如生物、解剖结构、物质、制品等;事件是社会活动,如行为、活动、研究过程等。

语义类型是分层次的,因此具有等级关系即is-a,除此之外,语义类型之间还存在各种相关关系,如:物理上相关(Physically-related-to),空间上相关(Spatially-related-to),功能上相关(Functionally-related-to),时间上相关(Temporally-related-to)和概念上相关(Conceptually-related-to)。

UMLS定义了包括is-a在内的共54种语义关系,语义类型可以看成是有层次结构的“节点”,而语义关系将这些节点连成网络。

语义网络提供了概念的一致性分类，即语义类型，以及更加详细的概念之间的语义关系，其中语义类型具有树形层次等级结构特点，UMLS 以语义类型为点，语义类型之间的语义关系为链构成了语义网络

1、127种语义类型以及54种语义关系

2、每个语义类型和语义关系都有唯一的语义标识符(TUI)

3、语义类型采用了构思新颖的树形等级结构，语义类型的最高层为实体（Entity）和事件（Event）两大类

https://www.nlm.nih.gov/research/umls/META3_current_semantic_types.html

http://www.omaha.org.cn/data/upload/portal/20171227/5a433253d7969.pdf

4、语义类型是网状结构中的节点，而语义关系则是将这些节点连接到一起的链

5、分为两大类：等级关系和相关关系

6、UMLS 语义网络中最常用的语义关系是 isa，它不仅确立了语义类型之间的等级关系，而且也能被用来决定超级叙词表中的每个概念对应的具体语义类型的分配。

小结：语义关系和语义类型构成了语义网络；语义类型就是标签，也就是个各种实体分了类，比如药物统一有一类叫做“临床药物”("clinical drug")。语义关系是用来连接语义类型，详见官网https://www.nlm.nih.gov/research/umls/META3_current_relations.html。

语义类型的分配是基于源词汇表中的概念的含义来进行的，怎么把超级叙词表中的词语分配语义类型？是经历了四个过程：首先，用算法给每个词语分配一个建议的语义类型；其次，由主题专家审查或分配不同的类型；再次，由承包商人员进行审查；最后，所有任务都有一个小团队进行使用并修改。

https://www.nlm.nih.gov/research/umls/META3_current_relations.html

https://www.ncbi.nlm.nih.gov/books/NBK9679/

A Portion of the UMLS Semantic Network: Relations

可以看到，语义网络和超级叙词表之间的关系就是，超级叙词表通过某种方法被分为127种语义类型（7个组别），这些语义类型会通过语义关系进行连接，构成semantic network。

专家词典和各种工具

专家词典提供了词汇相关信息和很多用于自然语言处理的工具。

专家辞典(SPECIALIST Lexicon)收录常见的英语单词、生物医学术语和出现在Medline、UMLS Metathesaurus中的术语。每个词条记录均详细描述自然语言处理系统所需要的词典信息,包括句法、形式和结构的拼写信息,同时提供词典工具和程序供超级叙词表和专家词典确定英语词汇的范围以及识别生物医学术语和文本中词的词形变异,是进行检索、标引和词汇处理的有力工具[ 14]。词条目可以是单个单词或多个单词组成的术语,相应的记录包括4个组成部分:基本形式、词类、唯一性标识符以及任何现成可用的拼写形式。专家辞典提供的自然语言处理工具如表1所示

软件工具

（1） UMLS概念的文本映射工具MetaMap

MetaMap是一个实现自由文本到UMLS概念映射的工具,即标记出生物医学文本中所含有的UMLS超级叙词表概念。MetaMap的应用非常广泛,如Medline数据检索,有研究表明[ 18],它能够提高Medline文献信息检索的效果;同时,MetaMap在数据挖掘领域也有广泛的应用,包括临床发现、发现文献中的药物与疾病关系等;此外,MetaMap也是NLM自动标引系统的实现基础,用于为半自动和全自动标引生成推荐术语.

小结：可以用这个工具自动识别出文本中实体的类别，是基因/疾病/...

(2) 语义表达工具SemRep

SemRep应用自然语言处理技术和UMLS的专家辞典工具,将生物医学文本进行语句切分和词性标注,对所获得的术语应用MetaMap映射,获得其在UMSL超级词表中的相应概念,以及概念在语义网络中对应的语义类型和语义关系,并通过概念共现获得文本信息的主要论点,即该文本主旨内容的主语-谓词-对象形式的语义表达

小结：SemRep是一个程序，可从生物医学自由文本中提取语义谓词（主题-关系-对象三元组）。semrep主要是用来进行关系抽取的。

UMLS搜索一个例子

搜索influenza,会有语义类型，CUI，以及一系列跟这个词有关的其他词（或是意思相近，或是带有这个单词）

term type是术语类型（？？），默认是降序，从高到低，排名最高的是该概念的首选名称（所以是flu??，不是influenza吗？？？）

CODE表示来源表

二. 如何使用UMLS

1. 获得许可，注册账号

2. 远程连接 Restful API()

视频：https://www.nlm.nih.gov/research/umls/user_education/quick_tours/UTS-API/UTS_REST_API_Authentication.html

网页：https://documentation.uts.nlm.nih.gov/rest/home.html

简而言之，三大步骤：获得TGT->获得ST->用API取数据。

3. 本地化

4. UMLS基于的算法

5. UMLS的优缺点

优点：规模大，覆盖的领域广，梳理的细致；有唯一标识符；有同义词，且同义词指向同一概念；有附加的同义词（？？）；有关系层次；有语义类别

缺点（找例子？？）：结构不一致（有向无环图）；

语义不一致；

缺乏关系；

isa关系的意义不是很准确，is generally a表示一般情况下成立，但是有不成立的情况，所以由这个关系推理出来的其他关系不是很准确；

对于缺失的和错误的关系很难检测到；

违反偏序关系的反对称性（？）；

一些关系展示出来了但是无法查到；

关系冗余，对于A->B->C的关系中，A->C的关系是可以省略的，但是有的还是添加上了。

术语库只是单纯存在术语，或者多了来源词表的关系，但是缺乏规则和推理（规则推理/自动推理）；知识库则是要由规则和推理的

UMLS学习笔记
学习材料 The UMLS What is it and how to use it(PPT) UMLS及其在智能...
UMLS的语义类型和语义网络
UMLS官方文档：https://www.nlm.nih.gov/research/umls/new_users/...
UMLS语义网络详解
来源：https://www.ncbi.nlm.nih.gov/books/NBK9679/ Semantic N...
MARKDOWN学习笔记
标题 # MARKDOWN学习笔记 MARKDOWN学习笔记 MARKDOWN学习笔记- MARKDOWN学习笔记...
ReactNative学习笔记(从基本概要到控件间传值)
ReactNative学习笔记1.1 ReactNative学习笔记1.2 ReactNative学习笔记1.3 ...
Kotlin学习笔记：类和接口
Kotlin学习笔记：概述Kotlin学习笔记：基本语法和函数Kotlin学习笔记：类和接口Kotlin学习笔记：...
Kotlin学习笔记：概述
Kotlin学习笔记：概述Kotlin学习笔记：基本语法和函数Kotlin学习笔记：类和接口Kotlin学习笔记：...
Kotlin 学习笔记：基本语法和函数
Kotlin学习笔记：概述Kotlin学习笔记：基本语法和函数Kotlin学习笔记：类和接口Kotlin学习笔记：...
Kotlin学习笔记：注解和反射
Kotlin学习笔记：概述Kotlin学习笔记：基本语法和函数Kotlin学习笔记：类和接口Kotlin学习笔记：...
Kotlin学习笔记：泛型
Kotlin学习笔记：概述Kotlin学习笔记：基本语法和函数Kotlin学习笔记：类和接口Kotlin学习笔记：...