一、最大熵模型与逻辑回归：都是求的最大似然概率

https://www.jianshu.com/p/e7c13002440d
最大熵思想是什么
最大熵模型是如何运用最大熵思想的
分类模型有判别模型和生成模型两种，判别模型是要学习一个条件概率分布 P(y|x)。
总结来说，最大熵的思想是，当你要猜一个概率分布时，如果你对这个分布一无所知，那就猜熵最大的均匀分布，因为均匀分布总是同类分布中熵最大的分布。
如果你对这个分布知道一些情况，那么，最好的分布就是符合这个经验知识的前提下，熵最大的分布。
区别：
我们从最大熵的思想出发得出的最大熵模型，最后的最大化求解就是在求P(y|x)的对数似然最大化。
逻辑回归也是在求条件概率分布关于样本数据的对数似然最大化。二者唯一的不同就是条件概率分布的表示形式不同。
熵
概率分布是对随机变量的刻画，不同的随机变量有着相同或不同的概率分布，熵，就是对不同概率分布的刻画！
本质上，是为了描述不确定的程度，并以此对不同的概率分布进行比较。

二、归一化与标准化

1.是什么
归一化就是将训练集中某一列数值特征（假设是第i列）的值缩放到0和1之间
标准化就是将训练集中某一列数值特征（假设是第i列）的值缩放成均值为0，方差为1的状态。
归一化和标准化的相同点都是对某个特征（column）进行缩放而不是对某个样本的特征向量（row）进行缩放。
也就是只能对列进行缩放，不能对行缩放。对特征向量进行缩放是毫无意义的，比如三列特征：身高、体重、血压
每一条样本（row）就是三个这样的值，不能将身高、体重和血压混到一起去！

2.区别
标准化是更常用的手段，归一化的应用场景是有限的。
(1)标准化更好保持了样本间距。当样本中有异常点时，归一化有可能将正常的样本“挤”到一起去
(2)标准化更符合统计学假设。对一个数值特征来说，很大可能它是服从正态分布的

3.逻辑回归必须要进行标准化吗？
(1)如果你不用正则，那么，标准化并不是必须的，如果你用正则，那么标准化是必须的。
(2)如果不用正则，那么标准化对逻辑回归好处。
进行标准化后，得出的参数值的大小可以反应出不同特征对样本label的贡献度，方便进行特征筛选。如果不做标准化，是不能这样来筛选特征的。
(3)做标准化注意事项。
最大的注意事项就是先拆分出test集，不要在整个数据集上做标准化，因为那样会将test集的信息引入到训练集中。
如果不剔除，标准化后的训练集实际上是受到test集的影响的，学到了test集的特征，相当于剧透了。