（三）多项式分布&&分类回归问题分开讨论的原因

作者: Pan_Ziheng | 来源:发表于2020-07-17 16:35 被阅读0次

（三）多项式分布&&分类回归问题分开讨论的原因
softmax原理及推导
机器学习入门-回归分析
机器学习笔记-03-广义线性模型推导线性回归及逻辑回归
00003. 参数化多项式分布时，为什么使用k-1个参数？
R语言偏态分布的回归分析
回归（三）：Softmax回归
为什么不用线性回归解决分类问题?
【机器学习】多项式回归python实现
【机器学习】多项式回归sklearn实现

Author: Pan

Date: 2020/7/17

我们在做分类的问题时，会不禁这么想，毕竟分类问题只是回归问题的一个特例，为什么我们不能用回归的方式去设计分类问题的策略，为什么它要被拿出来讨论？

例如经常我们能见到的：一个三类问题的Label编码成（0,0,1）(0,1,0), (1,0,0)。又或者（0.1,0.2,0.7）取输出概率最大的那个，类别为第三类。为什么我们不能直接就这个问题也约化成一个回归问题，比如：设置几个阈值，将输出的连续值按阈值划分为几类，不用ONE-HOT编码,表示还简单?

那么问题来了，这个阈值你怎么设置，训练样本数据极度不平衡时，这个阈值设置多少比较适合潜在的你要学习的真实模型？这个阈值会不会是样本偏倚程度的函数？如果这样的话，这个阈值真的“玄学”了，也许我们可以深究一下它们之间的关系，以图使其合理，但是这是一个很麻烦的事。。。不仅麻烦，还有一些我们将要提到的一些较为隐蔽的问题。

我们知道多项式分布是二项分布的推广，它的渐进分布是高斯分布(高斯分布具体见上一篇)，假设你真的按照阈值法去做了，本质上你在假设一个事情，那就是你的分布服从于高斯分布。你会说这有什么问题吗？

那么我们一起来看看：

首先我们快速过一下多项式分布的定义，假如我们有K类需要分：

$K,n>0;A=\left\{ \vec{X}|\vec{x}=(x_{1},x_{2},...,x_{K}) \right\} ;x_{i}\geq 0;i=1,2,...K; \sum_{i=1}^{K} x_{i} =n;\forall p_{1},p_{2},...,p_{k};\\\\(p_{1}+p_{2}+...+p_{k})^{n}=\sum_{X \in A}\frac{n!}{x_{1}!x_{2}!...x_{k}!}\cdot p^{x_{1}}_{1}p^{x_{2}}_{2},...,p^{x_{k}}_{k}$

其中， $p_{i}$ 均为在区间(0,1)取值的数，且 $\sum^{K}_{i=1}p_{i}=1$ ;

$\vec{X}$ 服从多项式分布，相关参数由 $\vec{P}=(p_{1},p_{2},...,p_{k})$ 和 $n$ 组成。

所以多项式分布的概率质量函数(PMF)为：

$M_{k-1}(\vec{X};\vec{P},n)=\frac{n!}{\prod _{i=1}^k x_{i}!}\prod _{i=1}^{K}p^{x_{i}}_{i};\\ \sum_{i=1}^{K} x_{i} =n;\sum^{K}_{i=1}p_{i}=1$

其中，k-1为自由度。

多项式分布期望： $E(x_{i})=np_{i}$

多项式分布方差： $D(x_{i})=np_{i}(1-p_{i})$

多项式分布协方差： $Cov(x_{i},x_{j})=-np_{i}p_{j}$

因此协方差矩阵为： $\Sigma = n(diag(p_{1},p_{2},...,p_{n})- \vec{P}^{T}P;)$

我们发现： $\Sigma \cdot \vec{1}=\vec{0} \cdot \vec{1}$ ，这说明0是它的一个特征值，这个协方差矩阵是奇异矩阵。

另，我们给出该协方差矩阵是半正定矩阵的证明：

$\vec{a}^{T}\cdot \Sigma \cdot \vec{a}=\sum^{K}_{i=1}a_{i}^{2}p_{i}-(\sum^{K}_{i=1}a_{i}p_{i})^{2}$

由于凸性不等式：

$f(\sum\theta x )\leq \sum \theta f(x)$

我们令 $f(x)=x^{2}$

所以： $\vec{a}^{T}\cdot \Sigma \cdot \vec{a}\geq 0$ ;

因此得以证明，该协方差是半正定矩阵。

我们先放一放上面关于协方差矩阵是奇异矩阵的发现，我们来看看它的边界分布。

(无关乎主题，为了内容的完整性我们说一下下面内容)

边界分布

我们对 $\vec{X}$ 切分，并从中取出它的一个子集 $\vec{X^{(m)}}=(x_{1},x_{2},...,x_{m})$

$\vec{X^{(m)}}\tilde{}M_{m}(\vec{X^{(m)}};\space (p_{1},p_{2},...p_{m}),n)$

条件分布

令 $B=\left\{ (X_{1}, X_{2}, ...X_{K-1})|\sum^{K-1}_{i=1}n-X_{K}\right\}$

$f(X_{K}|(X_{1}, X_{2}, ...X_{K-1}))=\sum_{(X_{1}, X_{2}, ...X_{K-1}) \in B}\frac{n!}{x_{1}!x_{2}!...x_{K}!}\cdot p^{x_{1}}_{1}p^{x_{2}}_{2},...,p^{x_{K}}_{K}\\=\frac{n!p^{x_{K}}_{K}}{x_{K}!(n-x_{K})!}\cdot \sum_{(X_{1}, X_{2}, ...X_{K-1}) \in B}\frac{p_{1}^{x_{1}}p_{2}^{x_{2}}...p_{K-1}^{x_{1}}}{x_{1}!x_{2}!...x_{K-1}!}\\=\frac{n!p^{x_{K}}_{K}}{x_{K}!}\cdot (p_{1}+p_{2}+...+p_{K-1})^{n-x_{K}}\\=\frac{n!}{x_{K}!(n-x_{K})!} \cdot p^{x_{K}}_{K} (1-p_{K})^{n-x_{K}}$

发现这个条件分布为二项分布。

更一般的： $f((X_{1}, X_{2}, ...,X_{m})|(X_{m+1}, X_{m2}, ...X_{m+K}))\\=M_{m-1}((X_{1}, X_{2}, ...,X_{m});[(\frac{p_{1}}{1-p_{K}})^{x_{1}}, (\frac{p_{2}}{1-p_{K}})^{x_{2}},..., (\frac{p_{m}}{1-p_{m}})^{x_{m}}]^{T},n-\sum_{j=1}^{m}x_{j})$

(补充内容说完了，我们进入正题)

我们设 $\vec{Z}=(z_{1},z_{2},...,z_{t},...,z_{s})^{T};z_{t}\tilde{}M(z_{t};p,n_{t});$

所以对于每一个 $z_{t}$ ,均值都等于 $n_{t}p$ ,方差都等于 $n_{t}p(1-p)$ ;

令 ${Z}^{*}= \sum_{t=1}^{s}z_{t}$ ；那么 $Z^{*}\tilde{}M(Z^{*};p,\sum_{t=1}^{s}n_{t}); n=\sum_{t=1}^{s}n_{t};$

$Z^{*}$ 的期望为： $np$

协方差矩阵为： $\Sigma = n(diag(p_{1},p_{2},...,p_{n})- \vec{P}^{T}P;)$

继续：

那么关于分类问题，现在我们的label编码可以用one-hot编码，例如令x=(0,0,0,0,...,1), $x_{i}=0 \space or\space 1$ ;那么此时的n就为1,由于 $x_{i}$ 此时的阶乘无论怎样都是1，它的PMF实际上就是 $\prod _{i=1}^{K}p^{x_{i}}_{i};$ 所以可以用对数似然估计、使用这样一个PMF来构造损失函数；也就是在(一) 机器学习基本概要中提到的，二分类伯努利取对数后的那个交叉熵的推广。

根据中心极限定理，对于每个 $z_{t}$ (每个均值都是 $n_{t}p$ ,方差都是 $n_{t}(diag(p_{1},p_{2},...,p_{n})- \vec{P}^{T}P)$ ),我们需要考虑变量 $\bar{Z}= \frac{1}{n}{Z}^{*}=\frac{1}{n} \sum_{t=1}^{n}z_{t}$ ,又根据 $Z^{*}$ 的分布，在n很大时，也就是我们的类别足够多时，可依分布渐近于高斯分布

$\bar{Z}\tilde{}N(p,diag(p_{1},p_{2},...,p_{n})- \vec{P}^{T}P)$

在（一）机器学习基本概要中有提到，损失函数可以通过 $e^{- (y-\hat{f} (x))^{2} }$ 转化为最大后验概率；其实这个转化的形式 $e^{- (y-\hat{f} (x))^{2} }$ ，就是一个高斯分布。

也就是说，当采用最小二乘回归的方式来处理分类问题，其实是给了问题一个本不存在的数据正态假设，而且，即使n够大，采用了高斯，那么接踵而至的问题还有协方差矩阵的奇异问题，在处理奇异矩阵，我们不得不采用伪逆来算，行列式上也要对0行进行丢弃处理。当然还要加上一开始说的阈值的问题。所以假如分类和回归问题不分开，这些缺陷都很麻烦。

（三）多项式分布&&分类回归问题分开讨论的原因
Author: Pan Date:2020/7/17 我们在做分类的问题时，会不禁这么想，毕竟分类问题只是回归...
softmax原理及推导
序本次记录内容主要为softmax的推导，部分内容有参考各网友文章多分类问题多分类问题符合多项式分布，sof...
机器学习入门-回归分析
机器学习监督学习回归分析分类问题非监督学习分组问题降低维度一元线性回归多项式回归因为X没有排序，画出来的...
机器学习笔记-03-广义线性模型推导线性回归及逻辑回归
本文我们讨论以下问题：指数分布族广义线性模型利用广义线性模型构建线性回归利用广义线性模型构建二分类逻辑回归...
00003. 参数化多项式分布时，为什么使用k-1个参数？
多项式分布我们知道，对于有个不同可能目标变量取值的学习问题，使用多项式分布(multinominal distr...
R语言偏态分布的回归分析
偏态分布的回归分析回归是我们经常遇到的模型，但是回归会根据Y因变量的类型，分成分类问题（Y是分类变量，如生存或死...
回归（三）：Softmax回归
回归（三） Softmax回归二分类到多分类问题在Logistic回归中，我们处理的是二分类的问题。我们假定事...
为什么不用线性回归解决分类问题?
1.线性回归用来解决分类问题时，稳定性差。当样本分布比较复杂时，线性回归无法做到准确的分类。例如：（1）无异常值的...
【机器学习】多项式回归python实现
【机器学习】多项式回归原理介绍【机器学习】多项式回归python实现【机器学习】多项式回归sklearn实现 ...
【机器学习】多项式回归sklearn实现
【机器学习】多项式回归原理介绍【机器学习】多项式回归python实现【机器学习】多项式回归sklearn实现 ...