美文网首页机器学习读书笔记
2.1.1.6集成模型(分类)

2.1.1.6集成模型(分类)

作者: idatadesign | 来源:发表于2017-11-15 20:26 被阅读62次

模型介绍:集成分类模型是综合考量多个分类器的预测结果,从而做出决策。
1.利用相同的训练数据同时搭建多个独立的分类模型,然后通过投票的方式,以少数服从多数的原则作出最终的分类决策。比较具有代表性的模型为随机森林分类器,即在相同训练数据上同时搭建多棵决策树。
2.按照一定次序搭建多个分类模型。这些模型之间彼此存在依赖关系。一般而言,每一个后续模型的加入都需要对现有集成模型的综合性能有所贡献,进而不断提升更新过后的集成模型的性能,并最终期望借助整合多个分类能力较弱的分类器,搭建出具有更强分类能力的模型。比较具有代表性的当属梯度提升决策树。

集成模型对泰坦尼克号乘客是否生还的预测
import pandas as pd
titanic=pd.read_csv('http://biostat.mc.vanderbilt.edu/wiki/pub/Main/DataSets/titanic.txt')

#人工选取pclass、age以及sex作为判别乘客是否能够生还的特征
X=titanic[['pclass','age','sex']]
y=titanic['survived']

#对于缺失的年龄信息,我们使用全体乘客的平均年龄代替,这样可以在保证顺利训练模型的同时,尽可能不影响预测任务。
X['age'].fillna(X['age'].mean(),inplace=True)

from sklearn.cross_validation import train_test_split
X_train,X_test,y_train,y_test=train_test_split(X,y,test_size=0.25,random_state=33)

#对类别型特征进行转化,成为特征向量
from sklearn.feature_extraction import DictVectorizer
vec=DictVectorizer(sparse=False)
X_train=vec.fit_transform(X_train.to_dict(orient='record'))
X_test=vec.fit_transform(X_test.to_dict(orient='record'))

#使用单一决策树进行模型训练以及预测分析
from sklearn.tree import DecisionTreeClassifier
dtc=DecisionTreeClassifier()
dtc.fit(X_train,y_train)
dtc_y_pred=dtc.predict(X_test)

#使用随机森林分类器进行集成模型训练以及预测分析
from sklearn.ensemble import RandomForestClassifier
rfc=RandomForestClassifier()
rfc.fit(X_train,y_train)
rfc_y_pred=rfc.predict(X_test)

#使用梯度提升决策树进行集成模型训练以及预测分析
from sklearn.ensemble import GradientBoostingClassifier
gbc=GradientBoostingClassifier()
gbc.fit(X_train,y_train)
gbc_y_pred=gbc.predict(X_test)
集成模型对泰坦尼克号乘客是否生还的预测性能
from sklearn.metrics import classification_report

#输出单一决策树在测试集的分类准确性,以及更加详细的精确率、召回率、F1指标。
print('The accuracy of decision tree is',dtc.score(X_test,y_test))
print(classification_report(dtc_y_pred,y_test))
#输出随机森林分类器在测试集的分类准确性,以及更加详细的精确率、召回率、F1指标。
print('The accuracy of decision tree is',rfc.score(X_test,y_test))
print(classification_report(rfc_y_pred,y_test))
#输出梯度提升决策树在测试集的分类准确性,以及更加详细的精确率、召回率、F1指标。
print('The accuracy of decision tree is',gbc.score(X_test,y_test))
print(classification_report(gbc_y_pred,y_test))

在相同的训练和测试数据条件下,仅仅使用模型的默认配置,梯度上升决策树模型具有最佳的预测性能,其次是随机森林分类器,最后是单一决策树。大量在其他数据上的模型实践也证明了上述结论的普适性。一般而言,工业界为了追求更加强劲的预测性能,经常使用随机森林分类经营作为基线系统。

特点分析

集成模型可以说是实战应用中最为常见的。相比于其他单一的模型,集成模型可以整合多种模型,或者多次就一种类型的模型进行建模。由于模型估计参数的过程也同样受到概率的影响,具有一定的不确定性;因此集成模型虽然在训练过程中要耗费更多的时间,但是得到的综合模型往往具有更高的表现性能和更好的稳定性。

相关文章

  • 2.1.2.5集成模型(回归)

    模型介绍:在“2.1.1.6集成模型(分类)”节中,曾经探讨过集成模型的大致类型和优势。这一节除了继续使用普通随机...

  • 2.1.1.6集成模型(分类)

    模型介绍:集成分类模型是综合考量多个分类器的预测结果,从而做出决策。1.利用相同的训练数据同时搭建多个独立的分类模...

  • 《机器学习及实践——从零开始通往KAGGLE竞赛之路》读书笔记八

    集成模型(分类) 模型描述 集成(Ensemble)分类模型便是综合考量多个分类器的预测结果,从而做出决策。这种综...

  • 基于sklearn的集成分类器

    理论 集成模型 集成分类器模型是综合考虑多种机器学习模型的训练结果,做出分类决策的分类器模型 投票式:平行训练多种...

  • rf、adaboost、gbdt

    一:模型融合 模型融合又叫集成学习,由若干弱模型合成强模型。即每个分类器都是欠拟合的 二:模型三要素 2.1:模型...

  • 随机森林

    随机森林 :集成学习算法 集成学习:将多个模型进行组合来解决单一的预测问题。它的原理是生成多个分类器模型,各自独立...

  • 随机森林算法梳理

    集成学习概念集成学习就是组合多个弱监督模型以期得到一个更好更全面的强监督模型,集成学习潜在的思想是即便某一个弱分类...

  • 50-R语言机器学习:集成模型与多类分类

    《精通机器学习:基于R 第二版》学习笔记 1、集成模型简介 集成学习的定义是:“有策略地建立多个模型(如分类器或专...

  • 机器学习—提升和自适应增强(Boosting和AdaBoost)

    boosting是一种集成技术,试图从多个弱分类器中创建强分类器。通过从训练数据构建一个模型,然后创建第二个模型试...

  • 数据挖掘大纲

    整体大纲 1、模型评估与选择 2、线性模型 3、决策树 4、神经网络 5、支持向量机 6、贝叶斯分类器 7、集成学...

网友评论

    本文标题:2.1.1.6集成模型(分类)

    本文链接:https://www.haomeiwen.com/subject/xkbhvxtx.html