西瓜书笔记01：logistic回归、决策树

作者: 叫我e卵石 | 来源:发表于2018-08-15 09:49 被阅读0次

西瓜书笔记01：logistic回归、决策树
西瓜书--线性回归 logistic 01
西瓜书扩展_Logistic 回归
预测模型是不是准确率越高越好？
【DL笔记3】一步步亲手用python实现Logistic Re
2020-05-18 第九章 Logistic回归模型
回归（二）：Logistic回归
【机器学习实战】第5章 Logistic回归
数据挖掘与数据化运营实战
机器学习之Logistic回归

logistic回归

@[回归|分类|极大似然|泰勒级数|牛顿法|Hessian矩阵|sigmoid函数]

线性模型可以用来回归学习，若要做分类就要找一个单调可微函数将分类标记y与线性回归预测值联系起来。

如何求w和b？

二分类任务中，sigmoid函数即可将预测值z转换为0/1值。其中，sigmoid function： $y=\frac{1}{1+e^{-z}}$ 。将线性模型代入，即为 $y=\frac{1}{1+e^{-(w^{T}x+b)}}$ 。
先算 $\frac{y}{1-y}$ 再得 $ln(\frac{y}{1-y})=w^{T}x+b$ 。令y为后验概率估计p(y=1|x)，则 $ln(\frac{p(y=1|x)}{p(y=0|x)})=w^{T}x+b$ 。赋值法可得，
$p(y=1|x)=\frac{e^{w^{T}x+b}}{1+e^{w^{T}x+b}}$
$p(y=0|x)=\frac{1}{1+e^{w^{T}x+b}}$
极大似然估计w,b，最大化
$l(w,b)=\sum_{i=1}^{m}lnp(y_{i}|x_{i};w,b)，$
再根据牛顿法解出最优解。

牛顿法利用泰勒级数公式，求经过(x0,f(x0))点斜率为 $f^{'}(x_{0})$ 的直线与x轴交点。即 $f(x)=f(x_{0})+f^{'}(x_{0})\Delta x+...=0$ 得 $x_{n+1}-x_{n}=-\frac{f(x_{n})}{f^{'}(x_{n})}$ 。计算hessian矩阵开销大，所以有了拟牛顿法。

优缺点

优点：计算代价不高，易于理解和实现。
缺点：容易欠拟合，分类精度可能不高。

sklearn实现

# logistic分类
import pandas as pd
import numpy as np
from sklearn.linear_model import LogisticRegression
from sklearn.model_selection import train_test_split,cross_val_score
#from sklearn.metrics import roc_curve #二元分类
#import matplotlib.pyplot as plt

# txt也可以用read_csv读成dataframe，.loc取出需要的列 行数表示到某一行
iris = pd.read_csv('E:\\study\\data\\iris.txt',sep=',',skiprows=[1])
X = iris.loc[:,['sepal length','sepal width']]
y = iris.loc[:,['class']]

X_train,X_test,y_train,y_test = train_test_split(X,y,test_size=0.3)
logreg = LogisticRegression(C=1e5)
logreg.fit(X_train,y_train)
#y_pred = logreg.predict(X_test)
scores = cross_val_score(logreg,X_train,y_train,cv=5)
#scooing='recall' 召回率
print '准确率：%s' % np.mean(scores) # 0.78

二元分类模型评估

图片1.png
精确率|查准率 为预测为正例的里面真正例的比例，

P=\frac{TP}{TP+FP}。

召回率|查全率为真实为正例的里面真正例的比例，

R=\frac{TP}{TP+FN}。

ROC曲线 ROC的纵轴为真正例率，横轴为假正例率，分别为：

TPR=\frac{TP}{TP+FN}，

FPR=\frac{TP}{TP+FN}，

Tips

logistic回归广泛应用于流行病学，如判断哪些因素是致病的关键因素，判断得某些病的概率等。
一般来说，拓展到多分类问题，OneVOne比OneVRest开销更小。
类别不平衡学习的基本策略——“再缩放”，常用SMOTE算法在少的类别中过采样。

决策树

@[信息熵]

划分属性

ID3决策树划分属性的准则为信息增益。
C4.5决策树的准则为增益率。
CART决策树使用基尼系数来选择划分属性，使划分后基尼指数最小。

属性值缺失怎么办？

数据集D关于属性a的信息增益公式可推广为
$Gain(D,a)=\rho *Gain(\widetilde{D},a) =\rho *(Ent(\widetilde{D})-\sum_{v=1}^{V}Ent(\widetilde{D}^{v}))$
其中， $\widetilde{D}$ 表示D中属性a上没有缺失值的样本子集， $\rho$ 为无缺失值样本所占的比例，a有v个取值。

优缺点

优点：易于理解和解释，数据准备简单。
缺点：对各类别样本数量不一致的数据，信息增益结果偏向于更多数值的特征。结果不稳定，可以使用集成决策树解决。

西瓜书笔记01：logistic回归、决策树
logistic回归 @[回归|分类|极大似然|泰勒级数|牛顿法|Hessian矩阵|sigmoid函数] 线性模...
西瓜书--线性回归 logistic 01
import pandas as pd 负责数据的读写和初步处理 from sklearn.linear_mode...
西瓜书扩展_Logistic 回归
sign属于硬分类 Logistic属于软分类，也就是用概率来对预测结果进行判断两种分类得出的结果是一样的，后者...
预测模型是不是准确率越高越好？
对于一个数据挖掘项目而言，我们可以选择的模型众多，比如我们可以选择：线性回归、Logistic 回归、决策树、集成...
【DL笔记3】一步步亲手用python实现Logistic Re
前面的【DL笔记1】Logistic回归：最基础的神经网络和【DL笔记2】神经网络编程原则&Logistic Re...
2020-05-18 第九章 Logistic回归模型
第九章 Logistic回归模型 01 Logistic回归模型构建以及求解参数背景知识在实际的数据挖掘中，站...
回归（二）：Logistic回归
回归（二） Logistic 回归虽然本小节的方法叫做Logistic回归，但是Logistic回归通常用于解决...
【机器学习实战】第5章 Logistic回归
第5章 Logistic回归 Logistic 回归概述 Logistic 回归虽然名字叫回归，但是它是用来做分...
数据挖掘与数据化运营实战
笔记一. 常用算法分类：聚类、决策树、罗辑回归、支持向量机预测：决策树、罗辑回归、线性回归、神经网络、朴素贝...
机器学习之Logistic回归
1. Logistic回归的概念 1.1 简介 logistic回归又称logistic回归分析，是一种广义的线性...

西瓜书笔记01：logistic回归、决策树

logistic回归

如何求w和b？

优缺点

sklearn实现

二元分类模型评估

Tips

决策树

划分属性

属性值缺失怎么办？

优缺点

相关文章

西瓜书笔记01：logistic回归、决策树

西瓜书--线性回归 logistic 01

西瓜书扩展_Logistic 回归

预测模型是不是准确率越高越好？

【DL笔记3】一步步亲手用python实现Logistic Re

2020-05-18 第九章 Logistic回归模型

回归（二）：Logistic回归

【机器学习实战】第5章 Logistic回归

数据挖掘与数据化运营实战

机器学习之Logistic回归

网友评论

延伸阅读

深度阅读

栏目导航

热点阅读

机器学习