经过数据探索和数据预处理,得到了可以直接建模的数据。数据挖掘目标和数据形式可以建立分类与预测、聚类分析、关联规则、时序模式和偏差检测等模型。
5.1 分类与预测
5.1.2 回归分析
(1)非线性最小二乘法
https://blog.csdn.net/bevison/article/details/74940458
5.1.3 决策树
ID3 C4.5 CART
5.1.4分类与预测算法评价
MAE(平均绝对误差),MSE(均方误差),RMSE(均方根误差)。precision,recall,ROC,混淆矩阵。
5.2 聚类分析
聚类分析是在没有给定划分类别的情况下,根据数据相似度进行样本分组的一种方法。与分类模型需要使用有类标记样本构成的训练数据不同,聚类模型可以建立在无类标记的数据上,是一种非监督的学习算法。
image.png
5.2.1 k-means算法
1.连续属性
对于连续属性,首先需要标准化在进行距离的计算
连续属性度量距离的几种方法如下
2.对于文档数据采用余弦相似度进行相似度度量
5.2.2 聚类分析算法评价
5.3 关联规则
5.4 时序模式
给定一个已被观测了的时间序列,预测该序列的未来值
5.4.1 时间序列的预处理
拿到一个观察值序列后,首先要对他的纯随机性和平稳性进行检验,这两个重要的检验称为序列的预处理。根据检验结果将数据分为不同类型,对不同类型采用不同的分析方法。
网友评论