《统计学习方法》的Python实现：（1）感知机

作者: 松山剑客 | 来源:发表于2018-12-21 15:32 被阅读104次

统计学习方法第二章：感知机(perceptron)算法及pyth
统计学习方法第三章：k近邻法(k-NN),kd树及python实
统计学习方法第五章：决策树(decision tree),CAR
统计学习方法第四章：朴素贝叶斯法(naive Bayes)，贝叶
统计学习方法第五章：决策树(decision tree),ID3
统计学--感知机
机器学习好网址
《统计学习方法》的Python实现：（1）感知机
神经网络与机器学习，tensorflow，学习计划目录
感知机的总结及Python实现

0. 假装有一个前言

前几天看到有人转李航老师的《统计学习方法》python 3.6实现，突然发现书我是看了一半了，代码却只写过第三章的 $k$ 近邻法。（不要问我为什么现在才看了一半，也不要问我为什么不一边看一边写）

1. 感知机原理

赶只鸡（划掉）

感知机（Perceptron）是二分类的线性分类模型，只适用于线性可分的二分类问题。

线性二分类问题

输入	输出	模型类型	参数意义
特征向量	类别（ $\pm1$ ）	判别模型	超平面参数

感知机的损失函数为所有误分类点到分类超平面的距离之和，因此算法是误分类驱动的，正确分类的点不会对算法的结果做出贡献。

2. 感知机学习算法的两种形式

2.1 原始形式

使用随机梯度下降法，针对每个误分类使其梯度下降。

算法2.1_感知机学习算法的原始形式
输入：训练数据集 $T=\{(x_1,y_1),(x_2,y_2),...,(x_N,y_N)\}$ ；学习率 $\eta(0<\eta\leq1)$ ；
输出： $w,b$ ；感知机模型 $f(x)=\text{sign}(w\cdot x+b)$ .
1 选取初值 $w_0,b_0$
2 在训练集中选取数据 $(x_i,y_i)$
3 如果 $y_i(w\cdot x+b)\leq 0$
$w \leftarrow w+\eta y_ix_i \\ b \leftarrow b+ \eta y_i$
4 如果训练集中存在误分类点，转至 2；否则，结束

def trainOri(self,yita = 0.1):
        self.w = self.w0
        self.b = self.b0
        misDivision = True
        self.yita = yita
        self.k = 0
        while misDivision:
            for it in range(len(self.data)):
                if self.label[it] * (np.dot(self.w, self.data[it]) + self.b) <= 0:
                    self.w += self.yita * self.label[it] * self.data[it]
                    self.b += self.yita * self.label[it]
                    self.k += 1
                    break
                if it == len(self.data) - 1:
                    misDivision = False

原始形式这里没有问题，对1000个2维数据进行分类使用了 $0.14s$ ，更新次数为 $7470$ 次

PerceptronOri

2.2 对偶形式

使用随机梯度下降法，针对每个误分类使其梯度下降。

算法2.2_感知机学习算法的对偶形式
输入：训练数据集 $T=\{(x_1,y_1),(x_2,y_2),...,(x_N,y_N)\}$ ；学习率 $\eta(0<\eta\leq1)$ ；
输出： $\alpha,\beta$ ；感知机模型 $f(x)=\text{sign}(\sum_{j=1}^{N}\alpha_jy_jx_j\cdot x_i + \beta)$ .
1 选取初值 $\alpha_0=\{\alpha_1,\alpha_2,...\alpha_N\}=\{0,...,0\},\beta_0=0$
2 在训练集中选取数据 $(x_i,y_i)$
3 如果 $y_i(\sum_{j=1}^{N}\alpha_jy_jx_j\cdot x_i + \beta)\leq 0$
$\alpha \leftarrow \alpha+\eta \\ \beta \leftarrow \beta+ \eta y_i$
4 如果训练集中存在误分类点，转至 2；否则，结束

def trainDual(self, yita = 1):
        self.alpha = self.alpha0
        self.beta = self.beta0
        gram = []
        for it in self.data:
            temp = []
            for ot in self.data:
                temp.append(np.dot(it,ot))
            gram.append(temp)        
        misDivision = True
        self.yita = yita
        self.k = 0
        self.kk = 0
        while misDivision:
            for it in range(len(self.data)):
                temp = 0
                self.kk +=1
                if self.label[it] * (sum([self.alpha[i] * self.label[i] * gram[i][it] for i in range(len(self.data))]) + self.beta) <= 0:
                    self.alpha[it] += self.yita
                    self.beta += self.yita * self.label[it]
                    self.k += 1
                    break
                if it == len(self.data) - 1:
                    misDivision = False

对偶形式这里问题就大了，等了一分钟还以为是条件给错进入死循环了，反复检查确认没有问题，心想，跑去吧（其实去刷知乎了）。于是就有了下面这张图：

PerceptrDual

等一下，说好的使用Gram矩阵可以降低运算量呢？同样更新了七千多次为什么你跑了三分钟啊？！差了2000倍有木有啊！

emm

2.3 问题分析

1) 从编程角度分析

冷静分析一下，Gram矩阵计算时间只需 $0.6s$ 基本可以忽略不记，由于刚刚只统计了参数更新次数，我们重新统计一下两种算法第三步的判别步骤：

判别步骤

原始算法判别 $15133$ 次，更新参数 $239$ 次，耗时 $0.016s$
对偶算法判别 $16300$ 次，更新参数 $235$ 次，耗时 $33.29s$

由算法2.1，2.2可知，参数更新基本不消耗时间，也即大部分时间用于判别步骤。原始算法平均耗时 $1.05\cdot 10^{-6}s$ ，对偶算法平均耗时 $2ms$ 。这中间也就差了，额，1931倍吧。
继续冷静分析，算法2.2中第三步计算量大的主要原因是有一个求积再求和的过程，这个过程也可以当作向量内积来计算，这样就实现了在一次参数更新前只计算一次 $\alpha_jy_j$ 。这个部分书中没有提及，可能因为不属于算法而是计算方法的一部分吧。

更新对偶算法如下：

    def trainDual(self, yita = 1):
        self.alpha = self.alpha0
        self.beta = self.beta0
        gram = []
        for it in self.data:
            temp = []
            for ot in self.data:
                temp.append(np.dot(it,ot))
            gram.append(temp)
        gramA = np.array(gram)
        misDivision = True
        self.yita = yita
        self.k = 0
        self.kk = 0
        while misDivision:
            ay = np.array([self.alpha[x] * self.label[x] for x in range(len(self.alpha))])
            for it in range(len(self.data)):
                temp = 0
                self.kk +=1
                if self.label[it] * (np.dot(ay, gramA[it]) + self.beta) <= 0:
                    self.alpha[it] += self.yita
                    self.beta += self.yita * self.label[it]
                    self.k += 1
                    break
                if it == len(self.data) - 1:
                    misDivision = False

同样，我们使用1000个2维数据进行测试，结果如下：

更新对偶算法之后

虽然对偶算法还是比原始算法慢了20倍左右，但最起码两者是接近量级的运行时间了。

2)从算法角度分析

样本包括三个属性：个数，特征向量尺寸和标签。对于感知机，标签与数据个数相同。Gram矩阵是将样本的特征向量两两做内积，当特征向量尺寸较大时对偶算法应该可以比原算法简化更多的计算量。
我们将数据由1000个2维数据提升为1000个1000维数据，此时两种算法结果对比如下：

1000维数据

虽然对偶算法依然慢于原始算法，但两者间的差距已经由30倍缩小到了2.5倍。

我们继续增加样本的维数，将维数提高到丧(gan)心(de)病(piao)狂(liang)的500,000维，为了硬盘着想，我们这次只生成了100条数据。

绝不会用记事本打开的文本文档

最终结果是，原始算法速度依然是对偶算法的两倍左右。

50w维数据
大概是我代码能力太烂？可能还需要进一步优化。另外1957年有500,000维的数据需要处理吗？

代码

项目地址

P.S. 大概也许有可能还会更新

统计学习方法第二章：感知机(perceptron)算法及pyth
统计学习方法第二章：感知机(perceptron)算法及python实现统计学习方法第三章：k近邻法(k-NN),...
统计学习方法第三章：k近邻法(k-NN),kd树及python实
统计学习方法第二章：感知机(perceptron)算法及python实现统计学习方法第三章：k近邻法(k-NN),...
统计学习方法第五章：决策树(decision tree),CAR
统计学习方法第二章：感知机(perceptron)算法及python实现统计学习方法第三章：k近邻法(k-NN),...
统计学习方法第四章：朴素贝叶斯法(naive Bayes)，贝叶
统计学习方法第二章：感知机(perceptron)算法及python实现统计学习方法第三章：k近邻法(k-NN),...
统计学习方法第五章：决策树(decision tree),ID3
统计学习方法第二章：感知机(perceptron)算法及python实现统计学习方法第三章：k近邻法(k-NN),...
统计学--感知机
参考李航的统计学习感知机学习算法 Python实现感知机代码 Python代码实现对偶形式
机器学习好网址
统计学习方法代码实现最小二乘法感知机最小二乘法
《统计学习方法》的Python实现：（1）感知机
0. 假装有一个前言前几天看到有人转李航老师的《统计学习方法》python 3.6实现，突然发现书我是看了一半了...
神经网络与机器学习，tensorflow，学习计划目录
1.感知机 2.python实现感知机 3.实现mnist手写字识别 4.多层感知机实现mnist手写字识别，准确...
感知机的总结及Python实现
重读李航博士的《统计学方法》对感知机做个总结包括感知机原始形式和对偶对偶形式的原理和Python实现。 Pytho...