美文网首页
ML 监督学习 分类 逻辑回归

ML 监督学习 分类 逻辑回归

作者: XinY_VV | 来源:发表于2020-03-16 06:00 被阅读0次

逻辑回归(logistic regression)又称“对数几率回归。虽然它的名字是回归,但却是一种分类学习方法。逻辑回归也可以从二元分类扩展到多分类,这就是多项式回归。

1.构造预测函数h(x)


Sigmoid Function

对数几率函数是一种“Sigmoid"函数,Sigmoid的函数输出是介于(0,1)之间,中间值是0.5。sig(t)<0.5则说明当前数据属于反类/0类;sig(t)>0.5则说明当前数据属于正类/1类。所以可以将sigmoid函数看成样本数据的概率密度函数。

2.构造损失函数
用最大似然法估计参数,优点:大样本数据中参数的估计稳定,偏差小,估计方差小。
概率函数:

因为样本数据(m个)独立,取似然函数为:

取对数似然函数:

基于最大似然估计推导得到Cost函数和J函数:

3.梯度下降求最小值

模型的改进

避免过拟合---正则化
让准确率最大化---SVM

Kernal Logistics Regression

请参考别人写的文章https://blog.csdn.net/qq_34993631/article/details/79345889
配视频
https://www.youtube.com/watch?v=AbaIkcQUQuo

L1,L2正则化比较

L2是收缩,L2稀疏性
L2比L1要快
建议用逻辑回归是至少用一个正则化,特征要标准化。

线性回归与逻辑回归的比较
逻辑回归与朴素贝叶斯的比较

因为朴素贝叶斯对数据做出了更强的假设,但需要更少的示例来估计参数

例子
import pandas as pd
import matplotlib.pyplot as plt
from sklearn.model_selection import train_test_split
from sklearn.metrics import roc_curve,roc_auc_score,accuracy_score,confusion_matrix
from sklearn.linear_model import LogisticRegression

candidates = {'gmat': [780,750,690,710,680,730,690,720,740,690,610,690,710,680,770,610,580,650,540,590,620,600,550,550,570,670,660,580,650,660,640,620,660,660,680,650,670,580,590,690],
              'gpa': [4,3.9,3.3,3.7,3.9,3.7,2.3,3.3,3.3,1.7,2.7,3.7,3.7,3.3,3.3,3,2.7,3.7,2.7,2.3,3.3,2,2.3,2.7,3,3.3,3.7,2.3,3.7,3.3,3,2.7,4,3.3,3.3,2.3,2.7,3.3,1.7,3.7],
              'work_experience': [3,4,3,5,4,6,1,4,5,1,3,5,6,4,3,1,4,6,2,3,2,1,4,1,2,6,4,2,6,5,1,2,4,6,5,1,2,1,4,5],
              'admitted': [1,1,1,1,1,1,0,1,1,0,0,1,1,1,1,0,0,1,0,0,0,0,0,0,0,1,1,0,1,1,0,0,1,1,1,0,0,0,0,1]
              }

df = pd.DataFrame(candidates,columns= ['gmat', 'gpa','work_experience','admitted'])

X = df[['gmat', 'gpa','work_experience']]
y = df['admitted']  

X_train,X_test,y_train,y_test = train_test_split(X,y,test_size=0.25,random_state=0)  #train is based on 75% of the dataset, test is based on 25% of dataset

logistic_regression= LogisticRegression()  #逻辑回归
logistic_regression.fit(X_train,y_train)   #训练
y_pred=logistic_regression.predict(X_test) #预测

print (X_test) #test dataset
print (y_pred) #predicted values

print(confusion_matrix(y_test, y_pred))
print("Accuracy:",accuracy_score(y_test, y_pred))

#Plot ROC curve
y_pred_proba = logistic_regression.predict_proba(X_test)[::,1]
fpr, tpr, _ = roc_curve(y_test,  y_pred_proba)
auc = roc_auc_score(y_test, y_pred_proba)
plt.plot(fpr,tpr,label="data 1, auc="+str(auc))
plt.legend(loc=4)
plt.show()
ROC Curve

ROC曲线的纵轴是“真正例率”,横轴是“假正例率”。

总结
Conclusion

相关文章

  • ML 监督学习 分类 逻辑回归

    逻辑回归(logistic regression)又称“对数几率回归。虽然它的名字是回归,但却是一种分类学习方法。...

  • Types of Machine Learning: Super

    1. 监督学习 or 无监督学习 2. 监督学习 2.1 分类 2.2 回归 2.3 监督学习:分类 & 回归...

  • 机器学习算法分类

    机器学习算法分类 监督学习(预测)分类:K-近邻算法、贝叶斯分类、决策树与随机森林、逻辑回归、神经网络回归:线性回...

  • (一)监督学习与无监督学习

    监督学习(Supervised Learning): 分类:1、回归 2、分类 例子: 回归————————...

  • 深度学习的一些基本概念(一)

    申明:非原创,转载自《有监督学习、无监督学习、分类、聚类、回归等概念》 有监督学习、无监督学习、分类、聚类、回归等...

  • 机器学习的类型

    二元分类、多元分类、回归、结构化学习、······ 监督学习、非监督学习、半监督学习、强化学习、······ 成批...

  • 机器学习的分类

    分类: 目前机器学习主流分为:监督学习,无监督学习,强化学习。 监督学习: 监督学习可分为“回归”和“分类”问题。...

  • 2019-01-05-DL500问第二章

    监督学习 使用正确的标签训练网络,主要用于分类和回归,主要代表有:逻辑回归和反向传播 步骤数据集创建和分类训练:c...

  • 2019-03-06

    ML——降维与度量学习 KNN学习 k近邻(KNN)学习是一种常用的监督学习方法,可用于分类与回归任务中。基本思想...

  • 《机器学习》1.基础知识

    机器学习 组成 主要任务 分类:将数据划分类别。回归:主要用于预测。分类和回归属于监督学习。无监督学习:聚类,密度...

网友评论

      本文标题:ML 监督学习 分类 逻辑回归

      本文链接:https://www.haomeiwen.com/subject/sjhashtx.html