NLP - 特征表示

作者: 有你我就不孤单 | 来源:发表于2020-07-20 08:44 被阅读0次

NLP - 特征表示
NLP笔记 - 词向量
数据表示和特征表示
1.3多元线性回归模型
特征表示—动态词典
Wrod2vec算法_3分钟热情学NLP第4篇
机器学习之回归
NLP系列二：词表示
NLP文本的离散表示
第一周 - Model and Cost Function

# 前言

前馈神经网络中，全连接层可以看做是从四维到六维的线性变换。实现了一个向量与矩阵的乘法. h=xW, 其中从收入杭州的第i个神经元到输出行中的第j个神经元的连接权重为W[i+j], 然后每个值都由非现线性函数g作一定的变换，从输入到输出的整个计算过程可以写成（g（xW^1））W^2, 其中W^1是第一层的权重，W^2是第二层的权重。基于这样的观点，图4.1中的单个神经元相当于没有偏置项的逻辑斯蒂（对数线性）二分类器 q（xw）

# NLP分类问题中的拓扑结构

训练模型中，通常将x作为输入向量，之后进行预测。向量x来源于文本数据，能够梵音文本数据所具有的多种语言学特性。这种从文本数据到具体向量的映射过程称为“特征提取”和“特征表示”，通过“特征方程”所完成。决定正确的特征是使一个机器学习项目取得成功的一部分。深度神经网络减轻了对特征工程的需求，当然，核心特征还是要被定义的。尤其是对语言数据，其以一系列离散的符号形式存在。这个序列需要使用微妙的方法转化成为一个数值向量。

一些关键定义：

词：分词器对句子分词后的输出。

文本：语料中的一行行记录。

成对文本：一对词或文本A、B进行分析同义词或近义词，能否通过A推导出B？

上下文中的词：一段文本中，需要对文本上下文中的词进行分类，词性分类：名词、动词？词义分类：人名、地名。

词之间的关系：对一段长文本进行分词后上下文分析，譬如词A和词B的关系，是主语和谓语的关系？

# NLP中的特征

## 直接可观察特征

### 单独词特征

通用特征：表现为标量 indicator和数量count的形式，一个标量特征经常取0或1值，取决于某种条件是否出现（举例来说，当苹果这次出现至少一次与文本中，特征取1，否则取0）。一个可数特征的取值取决于给定一个事件出现的频率。

直接可观测特征：当关注的是独立于上下文的词时，我们的主要信息来源是组成词的字符和他们的次序，以及从中导出的属性，；如单词的长度、单词的子型

词元和词干：这个因为英文存在多种不同形式，譬如复数、进行时，将词语的不同形式映射到通用词语。中文不存在。

词典资源：一个额外的关于此的语义资源是词典。

分布信息：哪些词和当前词的行为是一致的，近义词或同义词等。

### 文本特征

当我们考虑一个句子、一个段落或一篇文本，观察到的特征是字符和词在文本中的数量和次序。

#### 词袋：Bag of Word(BOW)

### 权重：考虑一篇文本d，它是语料D的一部分，与将d中的每个词w表示为其归一化结果. tf-idf考虑了你文档频率IDF：包含某个词的文本在语料集中的个数的倒数。

#### 上下文特征

当考虑词在句子和文本中时，一个能够直接观测到的词的特征就是其在句子中的位置，围绕它的词和字符也可作为特征。与目标词越近，改词所具有的信息量就越丰富。

#### 窗口

基于上述词之间相互影响的原因，可以使用围绕词的窗口聚焦于词的直接上下文，即目标词每侧的k个词， k可设为2，5，10。之后使用特征来代表出现在窗口内的词。举例来说，玩一个特征即为词X出现在目标词周围5个词的窗口内。例如考虑句子"The brow fox jumped oer the lazy dog"，目标词为jumped，一个包含2个词的窗口将提供一个特征集合{word=brown, word = fox,word=over, worder = the}，窗口方法是BOW方法的一个版本，但是其受限于小窗口。

#### 位置

除了词的上下文，我们可能还会对词在句子中的绝对位置感兴趣，我们能够获得类似于”目标词是句子中的5个词“的特征，或者一个二进制的版本，能够指示粗粒度的类别信息，是否出现在前十个词中，或者是否在第10个和第20个词之间，等等。

### 词关系特征：

当考虑航下文中的两个词时，除了美国词的位置和围绕他们的词外。我们还能够观察到词之间的距离和他们之间的代表词。

## 可推测的语言学特征

句子除了线性排序外还是有结构的，这种结构遵循复杂的不便于直接观察到的规律。譬如词性、语法树、语义角色、篇章关系和一些其他语言属性。这些预测能够作为有效的特征用于更进一步的分类问题。

## 核心特征和组合特征

在很多情况下，我们关心的是出现在一起的联合特征，譬如，通过文本中的“巴黎”，我们可以把文本归类“旅游类别”，对于“休斯顿”来说也是一样。但是如果文本中同时出现这2个词，那么该文本不是旅游类别更优可能归于名流或者流言类别。

线性模型不能为一个联合事件付赋予一个值，她不是简单的值的求和，除非联合事件本身作为一个特征。因此，当为线性模型设计特征时，我们不仅需要定义核心特征，也需要定义很多组合特征。这些组合特征的集合是非常大的，加上专业知识，加上试错，都是必须的用于构建一系列既富含信息又相对紧凑的组合。

神经网络是非线性模型，并不会遇到这个问题，当使用神经网络多层感知机，模型设计者能够仅指定核心特征集合。然后依赖网络训练过程去选择重要的组合。

## n元组特征

一个特殊的特征组合案例是n元组，在给定的长度下由连续的词序列组成。对线性分类器是非常有用的。

## 分布特征

分布特征从不同角度揭示词之间的相似度，并且能够用于导出更好的词特征，将稀少的、不经常出现的词用与他们相似的常见词代替，或者就用词向量本身来作为词的表示。

网友评论

本文标题：NLP - 特征表示

本文链接：https://www.haomeiwen.com/subject/vyzskktx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！