spaCy文档-01：概览

作者: 3b899188980c | 来源:发表于2018-01-15 17:18 被阅读194次

spaCy文档-01：概览
产品经理文档学习学习
SpaCy v2.0 （二）浅译--训练分析模型
spaCy文档-02：新手入门
Python Web 框架：Tornado
知识图谱学习笔记
JavaScript DOM权威指南
Spacy 使用中文WordVector
Web自动化之Headless Chrome编码实战
SpringBoot官方文档（2.1.5Release）-第一部

架构

spaCy中的核心数据结构是Doc和Vocab。Doc对象包括一系列tokens和它们的标注。Vocab对象拥有一组查找表，这些表可以在文档之间提供通用信息。通过将字符串、单词向量和词汇属性集中起来，我们避免了存储这些数据的多个副本。这样可以节省内存，并确保有一个单一真实的数据来源。

文本注释也被设计为允许单一的数据来源:Doc对象拥有数据，而Span和Token是指向它的视图。Doc对象由Tokenizer组成，可以通过接口里面的组件进行修改。Language对象协调这些组件。它接受未处理过的文本，把它交给处理管道处理，得到标注好的文本。它还编排了培训和序列化。

架构图

对象容器

Doc：用于访问语言注释的容器

Span：Doc对象的切片

Token：一个单独的标记——例如一个单词、标点符号、空格等

Lexeme：词汇表中的一个条目。它是一个没有上下文的单词类型，但是它不是一个单词标记。因此它没有词性标记、依赖解析等

处理管道

Language:一个文本处理管道。通常你会为每次处理加载一次nlp，并在应用程序周围传递实例

Pipe:处理管道组件的基类

Tagger:在Doc对象上标注部分词性标记

DependencyParser：在Doc对象上标注句法依赖

EntityRecognizer：在Doc对象上标注命名实体，例如人物、产品等

TextCategorizer：为Doc对象分配类别或标签

Tokenizer：段文本，通过发现段边界创建Doc对象

Lemmatizer：确定单词的基本形式

Morphology：根据单词的词性和词性标记，分配语言特征，如引理，名词，动词时态等

Matcher：匹配相应的序列，基于模式规则，类似于正则表达式

PhraseMatcher：基于短语匹配相应的序列

其他类

Vocab：允许你查找Lexeme对象的词汇查找表

StringStore:字符串和hash值的映射

Vectrors:字符串转化为向量数据的容器类

GoldParse：训练标注的集合

GoldCorpus：一个标注好的语料库，使用json的格式。管理各种标注

网友评论

本文标题：spaCy文档-01：概览

本文链接：https://www.haomeiwen.com/subject/oujdoxtx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

spaCy文档-01：概览

架构

相关文章

spaCy文档-01：概览

产品经理文档学习学习

SpaCy v2.0 （二）浅译--训练分析模型

spaCy文档-02：新手入门

Python Web 框架：Tornado

知识图谱学习笔记

JavaScript DOM权威指南

Spacy 使用中文WordVector

Web自动化之Headless Chrome编码实战

SpringBoot官方文档（2.1.5Release）-第一部

网友评论

延伸阅读

深度阅读

栏目导航

热点阅读