美文网首页
GridSearchCV()和RandomizedSearchC

GridSearchCV()和RandomizedSearchC

作者: 马尔代夫Maldives | 来源:发表于2024-01-01 22:23 被阅读0次

一、具体例子见(jupyter notebook):

E:\cgx硬盘\★Python and AI\(cgx★★)scikit learn 学习笔记\sklearn_cgx\GridSearchCV和RandomizedSearchCV参数搜索\GridSearchCV_and_RandomizedSearchCV.ipynb

二、使用方法简介

sklearn中主要提供了两种搜索模型超参数的方法:

  • 网格搜索GridSearchCV:穷举所有参数组合,能确保找到的是最佳参数组合,但速度慢;
  • 随机搜索RandomizedSearchCV:随机采样参数组合,速度快,但可能找不到的不是最优参数组合。

可以在搜索最佳参数的同时自动训练得到最佳模型,也可以在得到最佳参数后自己重新训练最佳模型!

本文以GridSearchCV为例进行说明(随机搜索类似)

(1)GridSearchCV() 主要输入参数:

参数 描述
estimator 要搜索超参数的分类器对象(例如SVC()),并且可以指定传入除需要确定最佳参数之外的其他参数。每一个分类器都需要一个scoring参数,或者score方法;
param_grid 待搜索的参数组合,字典或字典list类型(之所以可以用‘字典list’,其意义在于可以对同一个(或一组)参数多次设置搜索范围,见后面例子)。(注意:字典的key必须和estimator里的参数名字相同,比如estimator用的是svc,要搜索svc的参数gamma,那么param_grid里的key就必须用gamma;如果用了管道(pipeline),管道里用户给svc取的名称是’svc_cgx’,那么param_grid里的key就应该是:svc_cgx__gamma,注意用“__(两个)”来分隔。)
n_jobs 搜索时的并发数(内核使用数)。=1 只用1个cpu(默认);=2 用2个cpu;=-1 用所有cpu。
refit 默认为True,在搜索参数结束后,用最佳参数结果再次fit一遍全部数据集,得到最佳参数与最佳模型。(这样用户就可以直接用.predict(X_new)进行预测了,不需要再根据搜索到的最佳参数重新训练一遍模型
cv 交叉验证折数,比如cv=5,则搜索的时候每个参数组合的模型性能是由5折交叉验证算出来的均值。
scoring 搜索时模型性能的评价准则,默认为None,None则使用estimator的默认评价准备。也可以自己设置,比如scoring=‘roc_auc’。
verbose 日志冗长度,int:冗长度,0:不输出训练过程,1:偶尔输出,>1:对每个子模型都输出。

用一个例子来说明param_grid这个参数为什么可以是:字典或字典list?

# #我们选择 svm.SVC()算法作为估计器,该算法其中有4个输入参数:kernel、C 、degree和 gamma
my_estimator = svm.SVC(probability=True)

# 下面是构建待搜索参数my_param_grid,其结构是一个“字典”或“字典list”:其中字典的key为真实的参数名称,value是该参数的待搜索范围。
my_param_grid = {'kernel':['linear','poly','rbf'], 'C':[1,10,100,1000], 'degree':[2,3], 'gamma':[1,0.1, 0.01, 0.001]}  # dict
my_param_grid = [{'kernel':['linear'], 'C':[1,10,100,1000]},
                 {'kernel':['poly'], 'C':[1,10],'degree':[2,3]},
                 {'kernel':['rbf'], 'C':[1,10,100,1000], 'gamma':[1,0.1, 0.01, 0.001]}]  # dict list
# 定义网格搜索对象
grid = GridSearchCV(estimator=my_estimator, 
                    param_grid=my_param_grid, 
                    refit=True, 
                    cv=10, 
                    n_jobs=-1, 
                    scoring='accuracy') 
# 开始网格搜索
grid.fit(X, y)

上例中,待搜索参数的估计器是svm.SVC(),该估计器其中有4个参数是kernel、C 、degree和 gamma,我们准备搜索这四个参数的最佳值,最佳值。
我们在定义my_param_grid时,用了两种方法:
(1)第一种是一个dict,其中kernel有['linear','poly','rbf'] 3个选择,C有[1,10,100,1000] 4个选择,degree有[2,3] 2个选择,gamma有[1,0.1, 0.01, 0.001] 4个选择。因此总共有:3×4×2×4=96种情况,共耗时4.92s。
(2)第二种是一个dict的list,与第一种不同的是,内含有3个dict,其中每个dict可以分别对不同的参数进行搜索范围选择。因此总共有:1×4+1×2×2+1×4×4=24种情况,共耗时0.286s。
由此可见,第二种方法更灵活,效率更高,推荐使用!

(2)GridSearchCV() 主要输出属性:

属性 描述
.best_score_ 最佳模型.best_estimator的平均交叉验证分数;
.best_params_ 返回dict,包含了.best_estimator的最佳参数;
.best_estimator_ 在获取的最佳参数.best_params_基础上重新训练的最佳模型,其前提是:输入参数refit = True
.n_splits int,交叉验证拆分的数量(折叠/迭代);
.cv_results_ 保存每次搜索的详细信息,通常与pandas一起利用表格形式输出:pd.DataFrame.from_dict(my_grid.cv_results_)

(3)GridSearchCV() 主要输出方法:

方法 描述
. fit(X, y) 根据训练数据对目标参数进行网格搜索
.predict(X_new) 直接利用最佳参数训练好的模型对新样本进行预测,其前提是:输入参数refit = True
.score(X_test, y_test) 测试数据在最佳模型上的分数,其前提是:输入参数refit = True
.get_params(deep=True/False) 返回dict,包含了详细的网格搜索参数。

三、高阶使用方法

Pipline的结合使用,见:
https://www.jianshu.com/writer#/notebooks/52233537/notes/117135513

四、其他

我在看其他博客的时候,别人有提到说:“网格搜索这个方法适合于小数据集,一旦数据的量级上去了,就很难得出结果。这个时候可以使用一个快速调优的方法——坐标下降:拿当前对模型影响最大的参数调优,直到最优化;再拿下一个影响最大的参数调优,如此下去,直到所有的参数调整完毕。这个方法的缺点就是可能会调到局部最优而不是全局最优,但是省时间省力。

如果没有太多的超参数需要调优,并且 pipeline 运行时间不长,请使用 GridSearchCV;
对于较大的搜索空间和训练缓慢的模型,请使用 HalvingGridSearchCV;
对于非常大的搜索空间和训练缓慢的模型,请使用 HalvingRandomSearchCV。

相关文章

网友评论

      本文标题:GridSearchCV()和RandomizedSearchC

      本文链接:https://www.haomeiwen.com/subject/jrjundtx.html