一、数据挖掘的定义
指通过从大量数据中通过算法搜索隐藏与其中信息的过程。其中机器学习是支撑数据挖掘的主要手段。
图 数据挖掘过程二、机器学习的基础概念
指让机器通过某种策略学习历史数据后通过建立模型能够进行一定的预测或者识别的能力。
1、模型的相关名词
1.1、损失
模型中损失是对糟糕预测的惩罚,损失是一个数值。如果模型预测的越准确,则损失的越低。
1.1、模型训练
训练模型表示通过有标签的样本学习所有的权重和偏差的理想值,尽可能的减少损失。
1.3、 标签
即为模型的y值,函数x最后对应的结论。
2、损失函数
能够以有意义的方式汇总各种损失。
例如MSE(均方误差):指的是每个样本平均平方损失。
MSE函数3、数据集划分
使用数据集来训练模型时,一部分用来训练,另一部分则用于验证。
分为训练集、测试集。
通常将数据集的70%划分为训练集,30%为测试集。另外需要注意对于具有时序性的数据集,需要按照时间划分。
4、流程
划分完数据集后,需要在训练集上调整,测试集上验证
模型训练流程借助于这种划分可以不断的调整模型,缺点是由于不断使用测试集调整模型,可能造成模型的过拟合。
因此为了解决上述情况,需要引入验证集。
通常将数据集划分为70%训练集,10%验证集,20%测试集。
优化后训练流程缺点将浪费10%的数据
4、交叉验证
其基本思想即将训练集和 测试集调换。原先的测试集用来做训练集,原先的训练集用来做测试集。
其中k折交叉验证,这种动态验证方式可以降低数据划分带来的影响。
通过将数据集均匀的分成5份
不重复的取其中一份作为测试集,用其他四份作为训练集,之后计算该模型在测试集上的MSE
将5次的MSE平均得到最后的MSE
5、泛化能力和过拟合
当模型建立好后模型的试用情况,泛化能力可以理解为模型对未知数据的预测情况。
过拟合指数据在训练集表现很好,但是在交叉验证和集和测试集上表现一般,即泛化能力较弱。
产生过拟合的条件包括:训练集数据较少,训练数据中噪声干扰大;模型过于复杂。
如何降低过拟合:1、获取更多的数据
2、选择合适的模型:根据奥卡姆剃刀法则:对于能够解释已知观测现象的假设中,我们应该挑选最简单的。
过拟合与泛化误差间关系6、模型类别
模型主要分为两大类:监督模型——分类模型、回归模型;无监督学习——从一堆数据中学习其中的统计规律,可以是类别、转化或者概率。
监督学习:指从对应的x、y关系中学习统计规律,然后预测新给出的x对应的y值
常见的监督学习:K—近邻(KNN)、线性回归(回归)、逻辑回归(分类模型)、支持向量机、决策树和随机森林、神经网络
常见的无监督学习:1、聚类算法:k-平均算法(k—means)、密度聚类算法、最大期望值算法;2、降维:主成分分析(PCA),关联规则学习——Apriori
7、模型的评估
1、一级指标
a、混淆矩阵:混淆矩阵是分别统计分类模型归错类、归对类的观测值个数,然后把结果放置一个表中展示。
混淆矩阵模型预测和实际结果一致为TP,即为真阳性;模型预测为是,实际为否为假阳性,其次为假阴性,真阴性。
模型中TP与TN数量越大越好。
2、二级指标
面对大量数据时,混淆矩阵往往不够用。可以采取以下指标
准确率:(TP+TN)/(TP+TN+FP+FN)。分类模型中判断正确的结果占总观测值的比重。
精确率:TP/(TP+TN)表示预测为正的样本中有多少是对的
查全率:TPR=TP/(TP+FN)表示样本中有多少正例被正确预测
假正率:FPR=FP/(FP+FN)
表示被错误分到正样本中的真实负样本。
2、回归模型评估指标
1、平均绝对误差MAE
2、均方误差MSE
3、均方根误差RMSE
4、中位绝对误差
网友评论