美文网首页
数据分析相关

数据分析相关

作者: 静心安分读书 | 来源:发表于2018-03-04 01:01 被阅读23次

·交叉验证与网格搜索
·cross_val_score与GridSearchCV
·Matplotlib 不错的教程的链接。

用交叉验证的目的是为了得到可靠稳定的模型(在参数则是固定的情况下)。
什么是交叉验证法?
它的基本思想就是将原始数据(dataset)进行分组,一部分做为训练集来训练模型,另一部分做为测试集来评价模型。得到这小部分样本的预报误差,记录它们的平方加和。这个过程一直进行,直到所有的样本都被预报了一次而且仅被预报一次。把每个样本的预报误差平方加和,称为PRESS(predicted Error Sum of Squares)。
例如10折交叉验证(10-fold cross validation),将数据集分成十份,轮流将其中9份做训练1份做验证,10次的结果的均值作为对算法精度的估计,一般还需要进行多次10折交叉验证求均值,例如:10次10折交叉验证,以求更精确一点。

为什么用交叉验证法?
交叉验证用于评估模型的预测性能,尤其是训练好的模型在新数据上的表现,可以在一定程度上减小过拟合。还可以从有限的数据中获取尽可能多的有效信息。
——————————————————
网格搜索

网格搜索(Grid Search)名字非常大气,但是用简答的话来说就是你手动的给出一个模型中你想要改动的所用的参数,程序自动的帮你使用穷举法来将所用的参数都运行一遍。来确定最优搜索参数。
这时就需要使用一个比较理想的评分方式(这个评分方式是根据实际情况来确定的可能是accuracy、f1-score、f-beta、pricise、recall等)
参考来源:http://blog.csdn.net/aliceyangxi1987/article/details/73532651
————————————————————
sklearn.model_selection.cross_val_score
单纯的交叉验证,根据固定的
sklearn.model_selection.GridSearchCV貌似内置了交叉验证。根据给定的参数不断的交叉验证,得到效果最好(得分最高)的参数的模型。并可以返回给定参数中的最优参数。

————————————————————
Matplotlib 入门教程
来源:http://blog.csdn.net/wizardforcel/article/details/54407212
————————————————————

相关文章

网友评论

      本文标题:数据分析相关

      本文链接:https://www.haomeiwen.com/subject/omvxfftx.html