美文网首页
NLP - 特征表示

NLP - 特征表示

作者: 有你我就不孤单 | 来源:发表于2020-07-20 08:44 被阅读0次

# 前言

前馈神经网络中,全连接层可以看做是从四维到六维的线性变换。实现了一个向量与矩阵的乘法. h=xW, 其中从收入杭州的第i个神经元到输出行中的第j个神经元的连接权重为W[i+j], 然后每个值都由非现线性函数g作一定的变换,从输入到输出的整个计算过程可以写成(g(xW^1))W^2, 其中W^1是第一层的权重,W^2是第二层的权重。基于这样的观点,图4.1中的单个神经元相当于没有偏置项的逻辑斯蒂(对数线性)二分类器 q(xw)

# NLP分类问题中的拓扑结构

训练模型中,通常将x作为输入向量,之后进行预测。向量x来源于文本数据,能够梵音文本数据所具有的多种语言学特性。这种从文本数据到具体向量的映射过程称为“特征提取”和“特征表示”,通过“特征方程”所完成。 决定正确的特征是使一个机器学习项目取得成功的一部分。深度神经网络减轻了对特征工程的需求,当然,核心特征还是要被定义的。尤其是对语言数据,其以一系列离散的符号形式存在。这个序列需要使用微妙的方法转化成为一个数值向量。

一些关键定义:

词:分词器对句子分词后的输出。

文本:语料中的一行行记录。

成对文本:一对词或文本A、B进行分析同义词或近义词,能否通过A推导出B?

上下文中的词:一段文本中,需要对文本上下文中的词进行分类,词性分类: 名词、动词? 词义分类:人名、地名。

词之间的关系:对一段长文本进行分词后上下文分析,譬如词A和词B的关系,是主语和谓语的关系?

# NLP中的特征

## 直接可观察特征

### 单独词特征

通用特征: 表现为标量 indicator和 数量count的形式,一个标量特征经常取0或1值,取决于某种条件是否出现(举例来说,当苹果这次出现至少一次与文本中,特征取1,否则取0)。一个可数特征的取值取决于给定一个事件出现的频率。

直接可观测特征:当关注的是独立于上下文的词时,我们的主要信息来源是组成词的字符和他们的次序,以及从中导出的属性,;如单词的长度、单词的子型

词元和词干:这个因为英文存在多种不同形式,譬如复数、进行时, 将词语的不同形式映射到通用词语。中文不存在。

词典资源: 一个额外的关于此的语义资源是词典。

分布信息: 哪些词和当前词的行为是一致的,近义词或同义词等。

### 文本特征

当我们考虑一个句子、一个段落或一篇文本,观察到的特征是字符和词在文本中的数量和次序。

#### 词袋:Bag of Word(BOW)

### 权重: 考虑一篇文本d,它是语料D的一部分,与将d中的每个词w表示为其归一化结果. tf-idf考虑了你文档频率IDF:包含某个词的文本在语料集中的个数的倒数。

#### 上下文特征

当考虑词在句子和文本中时,一个能够直接观测到的词的特征就是其在句子中的位置,围绕它的词和字符也可作为特征。与目标词越近,改词所具有的信息量就越丰富。

#### 窗口

基于上述词之间相互影响的原因,可以使用围绕词的窗口聚焦于词的直接上下文,即目标词每侧的k个词, k可设为2,5,10。之后使用特征来代表出现在窗口内的词。举例来说,玩一个特征即为词X出现在目标词周围5个词的窗口内。例如考虑句子"The brow fox jumped oer the lazy dog", 目标词为jumped,一个包含2个词的窗口将提供一个特征集合{word=brown, word = fox,word=over, worder = the},窗口方法是BOW方法的一个版本,但是其受限于小窗口。

#### 位置

除了词的上下文,我们可能还会对词在句子中的绝对位置感兴趣,我们能够获得类似于”目标词是句子中的5个词“的特征,或者一个二进制的版本,能够指示粗粒度的类别信息,是否出现在前十个词中,或者是否在第10个和第20个词之间,等等。

### 词关系特征:

当考虑航下文中的两个词时,除了美国词的位置和围绕他们的词外。我们还能够观察到词之间的距离和他们之间的代表词。

## 可推测的语言学特征

句子除了线性排序外还是有结构的,这种结构遵循复杂的不便于直接观察到的规律。譬如词性、语法树、语义角色、篇章关系和一些其他语言属性。这些预测能够作为有效的特征用于更进一步的分类问题。

## 核心特征和组合特征

在很多情况下,我们关心的是出现在一起的联合特征,譬如,通过文本中的“巴黎”,我们可以把文本归类“旅游类别”,对于“休斯顿”来说也是一样。但是如果文本中同时出现这2个词,那么该文本不是旅游类别更优可能归于名流或者流言类别。

线性模型不能为一个联合事件付赋予一个值,她不是简单的值的求和,除非联合事件本身作为一个特征。因此,当为线性模型设计特征时,我们不仅需要定义核心特征,也需要定义很多组合特征。这些组合特征的集合是非常大的,加上专业知识,加上试错,都是必须的用于构建一系列既富含信息又相对紧凑的组合。

神经网络是非线性模型,并不会遇到这个问题,当使用神经网络多层感知机,模型设计者能够仅指定核心特征集合。然后依赖网络训练过程去选择重要的组合。

## n元组特征

一个特殊的特征组合案例是n元组,在给定的长度下由连续的词序列组成。对线性分类器是非常有用的。

## 分布特征

分布特征从不同角度揭示词之间的相似度,并且能够用于导出更好的词特征,将稀少的、不经常出现的词用与他们相似的常见词代替,或者就用词向量本身来作为词的表示。

相关文章

  • NLP - 特征表示

    # 前言 前馈神经网络中,全连接层可以看做是从四维到六维的线性变换。实现了一个向量与矩阵的乘法. h=xW, 其中...

  • NLP笔记 - 词向量

    学习词向量的笔记 词向量 or word2vec,一种NLP中对词语的特征表示。由于one-hot会产生维度灾难,...

  • 数据表示和特征表示

    一、分类变量 1、One-Hot 编码(虚拟变量) value_counts:使用 pandas Series 的...

  • 1.3多元线性回归模型

    多特征量 多特征量表示 = 表示特征量的数目 = 第 个训练样本的输入特征量 = 第 个训练样本的第 个特征...

  • 特征表示—动态词典

    动态词典构造 在文本分类中,在处理流程上一般都大致会包括以下步骤:文本分词(含去停用词)建立测试集词列表与类别映射...

  • Wrod2vec算法_3分钟热情学NLP第4篇

    第4篇:3分钟热情学NLP,word2vec 在NLP领域,文本表示是第1步,也是很重要的1步。所谓文笔表示,即如...

  • 机器学习 之 回归

    1. 线性回归 模型 y表示预测结果n表示特征的个数xi表示第 i 个特征的值θj表示第 j 个参数 h表示假设函...

  • NLP系列二:词表示

    一、绪论 1、词无语义 图像和语言领域:基本数据是信号数据,可以通过距离度量判断信号是否相似。文本是符号数据,字面...

  • NLP文本的离散表示

    文本的离散表示(2022-03-07) one-hot表示 词袋模型 TF-IDF N-gram one-hot表...

  • 第一周 - Model and Cost Function

    模型表示 m:表示训练样本数量x:表示输入的特征,也被称为特征量y:表示输出变量,或目标变量(x,y):表示一个训...

网友评论

      本文标题:NLP - 特征表示

      本文链接:https://www.haomeiwen.com/subject/vyzskktx.html