数据平滑技术

作者: Milkmilkmilk | 来源:发表于2018-10-14 14:11 被阅读0次

数据平滑技术
机器学习基础（3）- 数据平滑
云计算技术的发展-睿云智合(Wise2C)解说
数据库扩容也可以如此丝滑，MySQL千亿级数据生产环境扩容实战
go如何热重启服务端进程
六.图像增强
《Python数据分析与挖掘实战》第四章数据预处理
NLP中的平滑技术
数据可视化：数据平滑
NLP第五篇-语言模型

平滑技术：
（1）把在训练语料中出现过的n元组的概率减少。
（2）把减少的概率质量分配给训练语料中没有出现的n元组。

根据平滑技术是否是组合使用的分为两类：简单平滑和组合平滑。

一. 简单平滑：

加法平滑
留存平滑
Good Turing平滑

二. 组合平滑：

插值平滑
回退平滑

（1）加法平滑：
说白了就是让所有n元组的出现次数+k。在这个基础上来进行训练计算。

这个简单的平滑会引出两个问题：
1：是否存在“富人不公平”。
2：对于没有出现过的n元组给予均值的概率值是不是不合理。

（2）留存平滑：
通过把训练语料分成两个部分：训练语料和留存语料。通过留存语料内的数据分布来改善训练语料估计出来的值。

定义：
$c_{tr}(w_1w_2...w_n)n元组在训练语料中出现的频率。$
$c_{ho}(w_1w_2...w_n)n元组在留存语料中出现的频率。$
$有可能有n元组不在训练语料中出现但是在留存语料中出现。$
$r 某n元组在训练语料中出现的频率$
$N_r 训练语料中出现r次的不同n元组的个数（type）$
$T_r 训练语料中出现r次的n元组在留存语料中的频率之和$
$T 为留存语料中n元组的数目$
$T_r = \sum_{ w_1...w_n|c_{tr}(w_1...w_n)=r} c_{ho}(w_1...w_n)$
那么
$p(w_1w_2...w_n) = \frac{T_r}{T} * \frac{1}{N_r},r = c_{tr}(w_1...w_n)$
而 $\frac{T_r}{T}$ 是在训练语料中出现了r次的n元组在留存语料中出现的概率。
$\frac{1}{N_r}$ 让前面这个概率均分给出现r次的n元组们。

这个就好像是训练好了之后做了一次预测一样。把预测的当做了答案。

（3）删除平滑：
留存平滑要求数据量很多，但是数据量往往是不够的。所以可以使用删除平滑。

其实就是两次留存，交叉验证。
将训练数据分成part0和part1
两次分别将不同的part设置为训练语料和留存语料。
之后
$p_{del}(w_1...w_n) = \frac{T_r^{01}+T_r^{10}}{N(N_r^0+N_r^1)} ,c(w1...w_n) = r$

（4）Good Turing 平滑
定义：
$N_r 代表出现r次n元组的个数。$
$A_r 代表出现r次n元组的总出现次数。$
$A_r = r*N_r$
普通Turing平滑有一个原则：
将平滑前出现r+1次的n元组的频率质量都给平滑后出现r次的n元组。
从频次的角度出发就是r+1次的n元组的总出现次数都给r次的n元组。

那么这样
$A_r^{new} = A_{r+1}$
并且每个r次的n元组可以获得以下的频率质量
$r^{new} = \frac{A_r^{new}}{N_r} = \frac{A_{r+1}}{N_r} = \frac{(r+1)N_{r+1}}{N_r}$

但是这样会出现问题，也就是在之前出现m次的n元组如果没有的话。那么平滑后m-1次的n元组也会为0。

而图灵的学生Good就解决了这个问题：
他提出的是对 $N_r$ 使用一个估计。（好像多项式插值一样，对 $N_r$ 函数进行模拟，近似，把没有的值给填充起来。这样 $r^{new}$ 就不会为0了，而且结果也不会很偏离现实。）

通过研究 $N_r$ 函数可以发现比较好的函数是 $N_r = ar^b$
并且研究 $r^new$ 和 r的关系（r>1）
也就是对于真实和我们平滑后的并且是被拿出概率质量的那部分。明显 $r^{new}<r$ ，而 $1-\frac{r^{new}}{r}$ 也就是所谓的折扣率。
可以发现的是r越大， $P_{MLE}$ 越可靠，折扣率越小。

综合上述两种平滑，可以给出以下策略：
---低频段（r比较小的时候）一般不会出现中断（ $N_r = 0$ ）所以使用Turing平滑。高频段使用Good-Turing。

具体地：
使用 Turing估计值方差：
$Var(r^{new}_T) \approx (r+1)^2\frac{N_{r+1}}{N_r^2}(1+\frac{N_{r+1}}{N_r})$
当这个值>1.65*1.65的时候就差异比较大了。

最后要概率归一（保持那些平滑前没有出现的n元组的概率质量）：
$P(出现r次的n元组,r>=1) = (1-\frac{N_1}{N})\frac{p_r^{unnorm}}{\sum_{r>=1}N_r*p_r^{unnorm}}$

（二）组合平滑：
上面的后面的简单平滑一般缓和了“富人不公平”的问题，但是针对没有出现过的n元组的概率还是给与均一的概率。那么如何解决这个问题?
主要的思想是用小规模1...n-1-gram的概率来启发分配。

（1）插值平滑：把不同阶-gram线性组合。

简单插值平滑
$p(w_i|w_{i-1})=\lambda p_{MLE}(w_i|w_{i-1}) + (1-lambda)p_{MLE}(w_i)$
$\lambda$ 可以人工设置或者学习而来，是固定的。

2.Jelinek-Mercer平滑：
固定 $\lambda$ 明显是不合理的。（高阶模型如果可靠的时候 $\lambda$ 应该变大）。
$\lambda \epsilon A_r(n元组出现的频次)$
从而有以下：
$p(w_i|w_{i-n+1}^{i-1}) = \lambda_{i-n+1}^{i-1}p_{MLE}(w_i|w_{i-n+1}^{i-1}) + (1-\lambda_{i-n+1}^{i-1})p(w_i|w_{i-n+2}^{i-1})$
注意
$w_{i-n+1}^{i-1} = w_{i-n+1}w_{i-n+2}...w_{i-1} 一共n-1个元素。加上w_i就是n个。$
所以是递归式的。
终止：

平滑后的一元模型。
0元模型，均匀分布的。

问题：如何求 $\lambda$ ？通过学习，但是参数太多了怎么办？聚集一下。把出现频率差不多的弄成一个类，这个类的 $\lambda$ 都是一个值。

？？？
根据修正的频次进行区间分类：
$\frac{c(w_{i-n+1}^{i-1})}{|w_i:c(w_{i-n+1}^i)>0|}$
？？？

（2）回退模型：
高阶可以的时候用高阶，不然就用低阶。

Katz平滑：
引入折扣率，来对存在的进行减少。
多出来的概率质量，用低阶的概率分布来分配。
折扣率的设置通过图灵估计列出两个方程来求解。
绝对减值法：
引入固定扣除值，低阶的平滑后（和上面的Katz不一样，这个是递归型的）的概率来启发分配。
Kneser-Ney平滑（KN平滑）是现在最好的平滑。
考虑一个问题：
有一个专有名词：San Fracisco 。并且这个词汇在文中出现的次数很多很多。
那么对于一个问题：
I can't see without my reading _____
理论上是glasses但是因为Fracisco出现的次数很多。
从而用绝对减值的时候

$P_{new}(Fracisco|reading) = \frac{\max(c(w_{i-n+1}^i)-\delta,0)}{\sum_{w_i}c(w_{i-n+1}^i)}+(1-\lambda_{w_{i-n+1}^{i-1}})P_{new}(Fracisco)$
前部分概率为0.但是后部分概率是大的。
而 $P_{new}(glasses|reading)$ 很可能文中出现没有几次。并且 $P(glasses)$ 也很少，这样就有问题了。

？？？
会造成问题：
$\sum_{w_{i-1}}p_{abs}(w_{i-1}w_i) != p(w_i)$
？？？
所以要按照 $w_i$ 的前驱词的种类数量来分配概率质量：
引入接续概率:
$p_{cnt}(w_i) = \frac{ | (w_{i-1}:c(w_{i-1}w_i)>0) | }{\sum_{w_j}| (w_{j-1}:c(w_{j-1}w_j)) |}$
从而获得以下：
$p_{KN}(w_i|w_{i-1}) = \frac{ \max( c(w_{i-1}w_i)-\delta,0 ) }{\sum_{w'}c(w_{i-1}w')} + (1-\lambda_{w_{i-1}})p_{cnt}(w_i)$

最后还有一个修正的。不是很懂。

数据平滑技术
平滑技术：（1）把在训练语料中出现过的n元组的概率减少。（2）把减少的概率质量分配给训练语料中没有出现的n元组。 ...
机器学习基础（3）- 数据平滑
本文主要用于理解数据平滑的原理，并且重点介绍了几种数据平滑的方法～基本目录如下：数据平滑的本质理解1.1 为什...
云计算技术的发展-睿云智合(Wise2C)解说
云计算是一种以数据和处理能力为中心的密集型计算模式，它融合了多项ICT技术，是传统技术“平滑演进”的产物。其中以虚...
数据库扩容也可以如此丝滑，MySQL千亿级数据生产环境扩容实战
数据库平滑扩容目录 1：理解传统扩容实现方案 2：理解平滑扩容双写方案 3：掌握数据库2N扩容方案 4：实现数据...
go如何热重启服务端进程
热重启方式使用负载均衡等技术分批次灰度机器使用fork系统调用来实现平滑重启 go的平滑重启实现具体原理就是...
六.图像增强
空域平滑图像锐化彩色增强技术频域增强增强的目的：改善图像视觉效果，提高清晰度：平滑、降噪——图像清晰利...
《Python数据分析与挖掘实战》第四章数据预处理
主要包括数据清洗、数据集成、数据变幻和数据规约。数据清洗删除原始数据集中的无关数据、重复数据，平滑噪声数据，筛...
NLP中的平滑技术
以Bigram为例，阐述平滑需要解决的问题，如下图所示对于所有的grams均存在于语料中，有如下的计算值。可以...
数据可视化：数据平滑
二维变量之间的关系研究是很多统计方法的基础，例如回归分析通常会从一元回归讲起，然后再扩展到多元情况。局部加权回归散...
NLP第五篇-语言模型
重点来了，语言模型的重要性就不用说了，这篇主要介绍n元语法模型、数据平滑技术、贝叶斯网络、马尔可夫模型、隐马尔可夫...