# 前言
前馈神经网络中,全连接层可以看做是从四维到六维的线性变换。实现了一个向量与矩阵的乘法. h=xW, 其中从收入杭州的第i个神经元到输出行中的第j个神经元的连接权重为W[i+j], 然后每个值都由非现线性函数g作一定的变换,从输入到输出的整个计算过程可以写成(g(xW^1))W^2, 其中W^1是第一层的权重,W^2是第二层的权重。基于这样的观点,图4.1中的单个神经元相当于没有偏置项的逻辑斯蒂(对数线性)二分类器 q(xw)
# NLP分类问题中的拓扑结构
训练模型中,通常将x作为输入向量,之后进行预测。向量x来源于文本数据,能够梵音文本数据所具有的多种语言学特性。这种从文本数据到具体向量的映射过程称为“特征提取”和“特征表示”,通过“特征方程”所完成。 决定正确的特征是使一个机器学习项目取得成功的一部分。深度神经网络减轻了对特征工程的需求,当然,核心特征还是要被定义的。尤其是对语言数据,其以一系列离散的符号形式存在。这个序列需要使用微妙的方法转化成为一个数值向量。
一些关键定义:
词:分词器对句子分词后的输出。
文本:语料中的一行行记录。
成对文本:一对词或文本A、B进行分析同义词或近义词,能否通过A推导出B?
上下文中的词:一段文本中,需要对文本上下文中的词进行分类,词性分类: 名词、动词? 词义分类:人名、地名。
词之间的关系:对一段长文本进行分词后上下文分析,譬如词A和词B的关系,是主语和谓语的关系?
# NLP中的特征
## 直接可观察特征
### 单独词特征
通用特征: 表现为标量 indicator和 数量count的形式,一个标量特征经常取0或1值,取决于某种条件是否出现(举例来说,当苹果这次出现至少一次与文本中,特征取1,否则取0)。一个可数特征的取值取决于给定一个事件出现的频率。
直接可观测特征:当关注的是独立于上下文的词时,我们的主要信息来源是组成词的字符和他们的次序,以及从中导出的属性,;如单词的长度、单词的子型
词元和词干:这个因为英文存在多种不同形式,譬如复数、进行时, 将词语的不同形式映射到通用词语。中文不存在。
词典资源: 一个额外的关于此的语义资源是词典。
分布信息: 哪些词和当前词的行为是一致的,近义词或同义词等。
### 文本特征
当我们考虑一个句子、一个段落或一篇文本,观察到的特征是字符和词在文本中的数量和次序。
#### 词袋:Bag of Word(BOW)
### 权重: 考虑一篇文本d,它是语料D的一部分,与将d中的每个词w表示为其归一化结果. tf-idf考虑了你文档频率IDF:包含某个词的文本在语料集中的个数的倒数。
#### 上下文特征
当考虑词在句子和文本中时,一个能够直接观测到的词的特征就是其在句子中的位置,围绕它的词和字符也可作为特征。与目标词越近,改词所具有的信息量就越丰富。
#### 窗口
基于上述词之间相互影响的原因,可以使用围绕词的窗口聚焦于词的直接上下文,即目标词每侧的k个词, k可设为2,5,10。之后使用特征来代表出现在窗口内的词。举例来说,玩一个特征即为词X出现在目标词周围5个词的窗口内。例如考虑句子"The brow fox jumped oer the lazy dog", 目标词为jumped,一个包含2个词的窗口将提供一个特征集合{word=brown, word = fox,word=over, worder = the},窗口方法是BOW方法的一个版本,但是其受限于小窗口。
#### 位置
除了词的上下文,我们可能还会对词在句子中的绝对位置感兴趣,我们能够获得类似于”目标词是句子中的5个词“的特征,或者一个二进制的版本,能够指示粗粒度的类别信息,是否出现在前十个词中,或者是否在第10个和第20个词之间,等等。
### 词关系特征:
当考虑航下文中的两个词时,除了美国词的位置和围绕他们的词外。我们还能够观察到词之间的距离和他们之间的代表词。
## 可推测的语言学特征
句子除了线性排序外还是有结构的,这种结构遵循复杂的不便于直接观察到的规律。譬如词性、语法树、语义角色、篇章关系和一些其他语言属性。这些预测能够作为有效的特征用于更进一步的分类问题。
## 核心特征和组合特征
在很多情况下,我们关心的是出现在一起的联合特征,譬如,通过文本中的“巴黎”,我们可以把文本归类“旅游类别”,对于“休斯顿”来说也是一样。但是如果文本中同时出现这2个词,那么该文本不是旅游类别更优可能归于名流或者流言类别。
线性模型不能为一个联合事件付赋予一个值,她不是简单的值的求和,除非联合事件本身作为一个特征。因此,当为线性模型设计特征时,我们不仅需要定义核心特征,也需要定义很多组合特征。这些组合特征的集合是非常大的,加上专业知识,加上试错,都是必须的用于构建一系列既富含信息又相对紧凑的组合。
神经网络是非线性模型,并不会遇到这个问题,当使用神经网络多层感知机,模型设计者能够仅指定核心特征集合。然后依赖网络训练过程去选择重要的组合。
## n元组特征
一个特殊的特征组合案例是n元组,在给定的长度下由连续的词序列组成。对线性分类器是非常有用的。
## 分布特征
分布特征从不同角度揭示词之间的相似度,并且能够用于导出更好的词特征,将稀少的、不经常出现的词用与他们相似的常见词代替,或者就用词向量本身来作为词的表示。
网友评论