Logistic回归概述
简单的说,Logistic是根据现有数据对分类边界线建立回归公式,以此进行分类(贴标签)。
优点:计算代价不高,易于理解和实现。
缺点:容易欠拟合,分类精度可能不高。
适用数据类型:数值型和标称型数据。
入门案例
如下图:有100个样本数据,这些数据点包含两个数值型特征:X坐标、Y坐标,并且属于两个不同的类型:蓝色点、橙色点。
在此数据集上,通过使用“梯度上升法”找到最佳回归系数,也就是拟合出如下的决策边界(绿线)。
有了最佳回归系数,我们就可以利用该模型对新的数据进行预测分析。
工作原理
回归分析是用来研究“因变量”(也称作“被解释变量”)与一个或多个“自变量”(也称作“解释变量”)之间关系的统计技术。回归分析的意义在于通过重复抽样自变量来估计或者预测因变量的总体均值。
上面的话是否难懂?那看看另外一种解释:
回归就是对已知公式的未知参数进行估计。比如已知公式是y=a∗x+by=a∗x+b,未知参数(因变量)是a和b,已知参数(自变量)是x和y。那么回归就是利用一组(x,y)训练数据对a和b的取值做估算,直到找到最符合的取值。
请注意上面的用词“最符合的取值 ”,这说明“Logistic回归” 存在一定的误差,但它却是一种寻求最优化解的有效方法。
“Logistic回归”搭配“随机梯度上升”方法,可以降低计算复杂度、提高计算效率。“随机梯度上升”是一种在线学习方式。
如果建立算法模型的方式是一次处理所有的训练数据,那么称为“批处理”方式;对应的,如果可以在新样本数据带入时对算法模型进行增量式更新,那么称为“在线学习”方式。
一般流程
1.收集数据:采用任意方法收集数据;
2.准备数据:由于需要进行距离计算,因此要求数据类型为数值型。另外,结构化数据格式最佳;
3.分析数据:采用任意方法对数据进行分析;
4.训练算法:大部分时间将用于训练,训练的目的是为了找到最佳的分类回归系数;
5.测试算法:一旦训练步骤完成,分类将会很快;
6.使用算法:首先,需要输入一些数据,并将其转换成对应的结构化数值;接着,基于训练好的回归系数就可以对这些数值进行简单的回归计算,判定它们属于那个类别;在这之后,我们就可以在输出的类别上做一些其它分析工作。
可使用场景
1.导致患病的危险因素分析;
2.经济发展预测;
......
网友评论