美文网首页
数据平滑技术

数据平滑技术

作者: Milkmilkmilk | 来源:发表于2018-10-14 14:11 被阅读0次

平滑技术:
(1)把在训练语料中出现过的n元组的概率减少。
(2)把减少的概率质量分配给训练语料中没有出现的n元组。

根据平滑技术是否是组合使用的分为两类:简单平滑和组合平滑。

一. 简单平滑:

  • 加法平滑
  • 留存平滑
  • Good Turing平滑

二. 组合平滑:

  • 插值平滑
  • 回退平滑

(1)加法平滑:
说白了就是让所有n元组的出现次数+k。在这个基础上来进行训练计算。

这个简单的平滑会引出两个问题:
1:是否存在“富人不公平”。
2:对于没有出现过的n元组给予均值的概率值是不是不合理。

(2)留存平滑:
通过把训练语料分成两个部分:训练语料 和 留存语料。通过留存语料内的数据分布来改善训练语料估计出来的值。

定义:
c_{tr}(w_1w_2...w_n)n元组在训练语料中出现的频率。
c_{ho}(w_1w_2...w_n)n元组在留存语料中出现的频率。
有可能有n元组不在训练语料中出现但是在留存语料中出现。
r 某n元组在训练语料中出现的频率
N_r 训练语料中出现r次的不同n元组的个数(type)
T_r 训练语料中出现r次的n元组在留存语料中的频率之和
T 为留存语料中n元组的数目
T_r = \sum_{ w_1...w_n|c_{tr}(w_1...w_n)=r} c_{ho}(w_1...w_n)
那么
p(w_1w_2...w_n) = \frac{T_r}{T} * \frac{1}{N_r},r = c_{tr}(w_1...w_n)
\frac{T_r}{T}是 在训练语料中出现了r次的n元组在留存语料中出现的概率。
\frac{1}{N_r}让前面这个概率均分给出现r次的n元组们。

这个就好像是训练好了之后做了一次预测一样。把预测的当做了答案。

(3)删除平滑:
留存平滑要求数据量很多,但是数据量往往是不够的。所以可以使用删除平滑。

其实就是两次留存,交叉验证。
将训练数据分成part0和part1
两次分别将不同的part设置为训练语料和留存语料。
之后
p_{del}(w_1...w_n) = \frac{T_r^{01}+T_r^{10}}{N(N_r^0+N_r^1)} ,c(w1...w_n) = r

(4)Good Turing 平滑
定义:
N_r 代表出现r次n元组的个数。
A_r 代表出现r次n元组的总出现次数。
A_r = r*N_r
普通Turing平滑有一个原则:
将平滑前出现r+1次的n元组的频率质量都给平滑后出现r次的n元组。
从频次的角度出发就是r+1次的n元组的总出现次数都给r次的n元组。

那么这样
A_r^{new} = A_{r+1}
并且每个r次的n元组可以获得以下的频率质量
r^{new} = \frac{A_r^{new}}{N_r} = \frac{A_{r+1}}{N_r} = \frac{(r+1)N_{r+1}}{N_r}

但是这样会出现问题,也就是在之前出现m次的n元组如果没有的话。那么平滑后m-1次的n元组也会为0。

而图灵的学生Good就解决了这个问题:
他提出的是对N_r使用一个估计。(好像多项式插值一样,对N_r函数进行模拟,近似,把没有的值给填充起来。这样r^{new}就不会为0了,而且结果也不会很偏离现实。)

通过研究N_r函数可以发现比较好的函数是 N_r = ar^b
并且研究r^new 和 r的关系(r>1)
也就是对于真实和我们平滑后的并且是被拿出概率质量的那部分。明显r^{new}<r,而1-\frac{r^{new}}{r}也就是所谓的折扣率。
可以发现的是r越大,P_{MLE}越可靠,折扣率越小。

综合上述两种平滑,可以给出以下策略:
---低频段(r比较小的时候)一般不会出现中断(N_r = 0)所以使用Turing平滑。高频段使用Good-Turing。

具体地:
使用 Turing估计值方差:
Var(r^{new}_T) \approx (r+1)^2\frac{N_{r+1}}{N_r^2}(1+\frac{N_{r+1}}{N_r})
当这个值>1.65*1.65的时候就差异比较大了。

最后要概率归一(保持那些平滑前没有出现的n元组的概率质量):
P(出现r次的n元组,r>=1) = (1-\frac{N_1}{N})\frac{p_r^{unnorm}}{\sum_{r>=1}N_r*p_r^{unnorm}}

(二)组合平滑:
上面的后面的简单平滑一般缓和了“富人不公平”的问题,但是针对没有出现过的n元组的概率还是给与均一的概率。那么如何解决这个问题?
主要的思想是用小规模1...n-1-gram的概率来启发分配。

(1)插值平滑:把不同阶-gram线性组合。

  1. 简单插值平滑
    p(w_i|w_{i-1})=\lambda p_{MLE}(w_i|w_{i-1}) + (1-lambda)p_{MLE}(w_i)
    \lambda可以人工设置或者学习而来,是固定的。

2.Jelinek-Mercer平滑:
固定\lambda明显是不合理的。(高阶模型如果可靠的时候\lambda应该变大)。
\lambda \epsilon A_r(n元组出现的频次)
从而有以下:
p(w_i|w_{i-n+1}^{i-1}) = \lambda_{i-n+1}^{i-1}p_{MLE}(w_i|w_{i-n+1}^{i-1}) + (1-\lambda_{i-n+1}^{i-1})p(w_i|w_{i-n+2}^{i-1})
注意
w_{i-n+1}^{i-1} = w_{i-n+1}w_{i-n+2}...w_{i-1} 一共n-1个元素。加上w_i就是n个。
所以是递归式的。
终止:

  1. 平滑后的一元模型。
  2. 0元模型,均匀分布的。

问题:如何求\lambda? 通过学习,但是参数太多了怎么办?聚集一下。把出现频率差不多的弄成一个类,这个类的\lambda都是一个值。

???
根据修正的频次进行区间分类:
\frac{c(w_{i-n+1}^{i-1})}{|w_i:c(w_{i-n+1}^i)>0|}
???

(2)回退模型:
高阶可以的时候用高阶,不然就用低阶。

  1. Katz平滑:
    引入折扣率,来对存在的进行减少。
    多出来的概率质量,用低阶的概率分布来分配。
    折扣率的设置通过图灵估计列出两个方程来求解。

  2. 绝对减值法:
    引入固定扣除值,低阶的平滑后(和上面的Katz不一样,这个是递归型的)的概率来启发分配。

  3. Kneser-Ney平滑(KN平滑)是现在最好的平滑。
    考虑一个问题:
    有一个专有名词:San Fracisco 。并且这个词汇在文中出现的次数很多很多。
    那么对于一个问题:
    I can't see without my reading _____
    理论上是glasses但是因为Fracisco出现的次数很多。
    从而用绝对减值的时候

P_{new}(Fracisco|reading) = \frac{\max(c(w_{i-n+1}^i)-\delta,0)}{\sum_{w_i}c(w_{i-n+1}^i)}+(1-\lambda_{w_{i-n+1}^{i-1}})P_{new}(Fracisco)
前部分概率为0.但是后部分概率是大的。
P_{new}(glasses|reading)很可能文中出现没有几次。并且P(glasses)也很少,这样就有问题了。

???
会造成问题:
\sum_{w_{i-1}}p_{abs}(w_{i-1}w_i) != p(w_i)
???
所以要按照w_i的前驱词的种类数量来分配概率质量:
引入 接续概率:
p_{cnt}(w_i) = \frac{ | (w_{i-1}:c(w_{i-1}w_i)>0) | }{\sum_{w_j}| (w_{j-1}:c(w_{j-1}w_j)) |}
从而获得以下:
p_{KN}(w_i|w_{i-1}) = \frac{ \max( c(w_{i-1}w_i)-\delta,0 ) }{\sum_{w'}c(w_{i-1}w')} + (1-\lambda_{w_{i-1}})p_{cnt}(w_i)

最后还有一个修正的。不是很懂。

相关文章

  • 数据平滑技术

    平滑技术:(1)把在训练语料中出现过的n元组的概率减少。(2)把减少的概率质量分配给训练语料中没有出现的n元组。 ...

  • 机器学习基础(3)- 数据平滑

    本文主要用于理解数据平滑的原理,并且重点介绍了几种数据平滑的方法~ 基本目录如下: 数据平滑的本质理解1.1 为什...

  • 云计算技术的发展-睿云智合(Wise2C)解说

    云计算是一种以数据和处理能力为中心的密集型计算模式,它融合了多项ICT技术,是传统技术“平滑演进”的产物。其中以虚...

  • 数据库扩容也可以如此丝滑,MySQL千亿级数据生产环境扩容实战

    数据库平滑扩容 目录 1:理解传统扩容实现方案 2:理解平滑扩容双写方案 3:掌握数据库2N扩容方案 4:实现数据...

  • go如何热重启服务端进程

    热重启方式 使用负载均衡等技术分批次灰度机器 使用fork系统调用来实现平滑重启 go的平滑重启实现 具体原理就是...

  • 六.图像增强

    空域平滑 图像锐化 彩色增强技术 频域增强 增强的目的: 改善图像视觉效果,提高清晰度:平滑、降噪——图像清晰 利...

  • 《Python数据分析与挖掘实战》第四章 数据预处理

    主要包括数据清洗、数据集成、数据变幻和数据规约。 数据清洗 删除原始数据集中的无关数据、重复数据,平滑噪声数据,筛...

  • NLP中的平滑技术

    以Bigram为例,阐述平滑需要解决的问题,如下图所示 对于所有的grams均存在于语料中,有如下的计算值。 可以...

  • 数据可视化:数据平滑

    二维变量之间的关系研究是很多统计方法的基础,例如回归分析通常会从一元回归讲起,然后再扩展到多元情况。局部加权回归散...

  • NLP第五篇-语言模型

    重点来了,语言模型的重要性就不用说了,这篇主要介绍n元语法模型、数据平滑技术、贝叶斯网络、马尔可夫模型、隐马尔可夫...

网友评论

      本文标题:数据平滑技术

      本文链接:https://www.haomeiwen.com/subject/xwpzaftx.html