十一、朴素贝叶斯分类算法:
11.1原理公式:
11.2使用示例:
11.3拉普拉斯平滑系数:
作用:为了解决数据集中出现0的情况
使用:
11.4sklearn中朴素贝叶斯算法API:
11.5案例分析:
需求:对20个新闻组数据集包含20个主题的18000个新闻组帖子进行分类
实现:
朴素贝叶斯算法总结:
十二、精确率与召回率
混淆矩阵:
精确率:预测结果为正例样本中真实为正例的比例(查得准)
召回率:真实为正例的样本中预测结果为正例的比例(查的全,对正样本的区分能力)
分类模型评估API:
十三、模型的选择与调优:
1.交叉验证
流程:将拿到的数据,分为训练和验证集。以下图为例:将数据分成5份,
其中一份作为验证集。然后经过5次(组)的测试,每次都更换不同的验证集。
即得到5组模型的结果,取平均值作为最终结果。又称5折交叉验证。
2.网格搜索
流程:通常情况下,有很多参数是需要手动指定的(如k-近邻算法中的K值),
这种叫超参数。但是手动过程繁杂,所以需要对模型预设几种超参数组合。
每组超参数都采用交叉验证来进行评估。最后选出最优参数组合建立模型。
API:
+
网友评论