机器学习

作者: Jerry_c28d | 来源:发表于2018-11-28 21:55 被阅读0次

机器学习概述与算法介绍(二)
「零基础」python机器学习入门（一）| 什么是机器学习？
Python3 机器学习简明教程
什么是深度学习
机器学习
机器学习，机器“学习”
2019-02-17
机器学习实战之准备（一）
机器学习笔记
不败给名词! 了解特征工程

决策树

信息论

信息 $X$

信息 $X$ 即信源 $X$ ：表示一段信息，如文本、语音等等。
信源的不确定性：信源发出的消息不确定性越大，收信者获取的信息量就越大。如果信源发送的消息是确切的，则对收信者来说没有任何价值（没有信息量）。衡量不确定性的方法就是考察信源 $X$ 的概率空间。X包含的状态越多，状态 $X_i$ 的概率 $P_i$ 越小，则不确定性越大，所含有的信息量越大。

信息量 $H(X)$

如何衡量信息 $X$ 的大小，如何衡量信息 $X$ 所包含的信息量？
$H(X_1) > H(X_2); H(X_1) = H(X_2);H(X_1) < H(X_2)$
自信息量H(X)：一个事件(消息)本身所包含的信息量，由事件的不确定性决定的。
如何用数学模型表示 $X$ 的信息量？

$H(X) <=> \frac{1}{P(X)}$ 单调性：
信息量 $H(X)$ 与信息 $X$ 出现的概率 $P(X)$ 成反比，即信息 $X$ 出现的概率越大，则 $X$ 的信息量越小。
$H(X_1, X_2) <=> H(X_1) + H(X_2)$ 可加性：信息 $X_1$ 与 $X_2$ 是独立随机变量可加(暂且简单认为独立，不独立有条件熵)
$H(X)\geq0$ 非负性

寻找一个函数 $H$ 同时满足以上三点，即：
随机事件 $X_i$ 发生概率为 $P(X_i)$ ，则信息量函数定义为：
$H(X)=\log\frac{1}{P(X)}=-\log{P(X)}$

可加性证明： $H(X_1,X_2)=\log\frac{1}{P(X_1,X_2)}=\log\frac{1}{P(X_1)P(X_2)}= \log\frac{1}{P(X_1)}+\log\frac{1}{P(X_2)}$ ， $X_1$ , $X_2$ 相互独立

信息熵

定义：信息量 $H(X)$ 在 $P(X)$ 分布下的数学期望：
$Entropy(X)=E_x[H(X)]=-\sum_xp(x)\log{p(x)}$

热力学第二定律

薛定谔.《生命是什么》（第六章有序，无序和熵）
基本思想：一个正常的人若要维持高序的状态，则必须要吸收负熵来维持高序稳定的状态，否则我们的熵会趋于增大而变的无序。所以人需要吃食物，食物是高序稳定的，经过吸收变得无序产生负熵来维持我们高序稳定状态。

信息熵可以描述数据的混合程度。
熵越大，混合度越高，数据纯度越低。熵 $\in$ [0， 1]

信息熵的计算

数据集 $D$ ：
X X X | O O O X X X O O

$ori\_entropy(X)$ ：最初整个系统（数据集 $D$ ）的固定熵，即经验熵（李航，统计学习方法）
$ori\_entropy(D)=-\frac{1}{2}\log\frac{1}{2}-\frac{1}{2}\log\frac{1}{2}=1$
根据某个特征将数据集 $D$ 划分为 $D_-$ (X X X)和 $D_+$ (O O O X X X O O)：
$entropy(D_-)=0$

$entropy(D_+)=-\frac{2}{7}\log\frac{2}{7}-\frac{5}{7}\log\frac{5}{7}$

即数据集划分后两个子数据集的信息熵。由这样划分数据集之后，整个系统（数据集 $D$ ）的信息熵有何变化呢？由此引入了信息增益(Information Gain)。

信息增益

信息增益是：原始数据集 $D$ 的熵减去按特征 $A$ 划分若干个子数据集 $D_i$ 的加权熵
信息增益所表达的是：由于熵的减小，而增加信息的获得是多少。
已经有了熵作为衡量训练样例集合纯度的标准，现在可以定义属性分类训练数据的效力的度量标准。这个标准被称为“信息增益（Information Gain）”。简单的说，一个属性的信息增益就是由于使用这个属性分割样例而导致的期望熵降低(或者说，样本按照某属性划分时造成熵减少的期望)。在信息增益中，衡量标准是看特征能够为分类系统带来多少信息，带来的信息越多，该特征越重要。对一个特征而言，系统有它和没它时信息量将发生变化，而前后信息量的差值就是这个特征给系统带来的信息量。
$IG=ori\_entropy-\sum_i w_i \cdot entropy(D_i)=ori\_entropy-\sum_i \frac{|D_i|}{|D|} \cdot entropy(D_i)$
信息增益越大越好，还是越小越好？
信息增益是：原始数据集 $D$ 的熵减去按特征 $A$ 划分若干个子数据集 $D_i$ 的加权熵。我们的目的是使每一个子集的熵最小（最小代表每个子集都是一类数据，高度有序的状态，高纯度），即加权熵尽量小，则IG越大。
根据IG准则的特征选择方法是什么？
对训练数据集（或子集） $D$ ，计算其每一个特征的信息增益，选择信息增益最大的特征。

更新中...

参考链接：

李航，统计学习方法
信息论的熵
https://github.com/wzyonggege/statistical-learning-method
MathJax basic tutorial and quick reference

机器学习概述与算法介绍(二)
机器学习概述机器学习基本概念机器学习基本流程与工作环节机器学习中的评估指标机器学习算法一览 3. 机器学习...
「零基础」python机器学习入门（一）| 什么是机器学习？
了解什么是机器学习？为什么需要机器学习？一、什么是机器学习？字面上，「机器学习」可以拆分为两个词：机器、学习。...
Python3 机器学习简明教程
1 机器学习介绍 1.1 什么是机器学习 1.2 机器学习的应用 1.3 机器学习基本流程与工作...
什么是深度学习
1.1 人工智能、机器学习与深度学习人工智能 > 机器学习 > 深度学习即，人工智能包括机器学习，机器学习包括...
机器学习
1、人工智能->机器学习->深度学习注：->包含关系 2、机器学习领域：模式识别＝机器学习数据挖掘＝机器学习...
机器学习，机器“学习”
如果你渴望奇迹，那么机器学习对你来说是一场精神盛宴。我诚挚的邀请你一同前往。我为什么总是要读这些人工智能、机器学...
2019-02-17
机器学习系列机器学习100天机器学习第1天：数据预处理机器学习第2天：简单线性回归模型机器学习第3天：多元...
机器学习实战之准备（一）
目录机器学习简单概述机器学习的主要任务学习机器学习的原因 python语言优势 1.1 何谓机器学习简单的...
机器学习笔记
学习Andrew Ng的机器学习教程，做个笔记。初识机器学习人工智能的核心是机器学习，机器学习的本质是算法机...
不败给名词! 了解特征工程
机器学习基本概念:人工智能 > 机器学习 > 深度学习机器学习:机器学习是从数据中自动分析获得规律(模型), 并...