python数据分析与挖掘

作者: dao刀dao刀 | 来源:发表于2020-06-27 15:05 被阅读0次

《Python数据分析与挖掘实战.pdf》PDF高清完整版-免费
python电子书汇总
【分析篇】：python基本统计特征函数解释
Python数据分析与数据挖掘思路
《Python数据分析与数据化运营》高清PDF+数据+代码
某网价值1800元的Python课程分享
数据挖掘的基础
数据特征分析
Python数据挖掘与机器学习_通信信用风险评估实战(3)——特
Python数据挖掘与机器学习_通信信用风险评估实战(4)——模

姓名:张新影

学号:19021210945

转载自:https://www.jianshu.com/p/06eefc1af670有删减

【嵌牛导读】根据挖掘目标和数据形式可以建立模型，包括：分类与预测、聚类分析、关联规则、时序模式和偏差检测等。

【嵌牛鼻子】数据挖掘

【嵌牛提问】 python的数据挖掘形式有哪些？

【嵌牛正文】经过数据探索与数据预处理，得到了可以直接建模的数据。根据挖掘目标和数据形式可以建立模型，包括：分类与预测、聚类分析、关联规则、时序模式和偏差检测等。

分类与预测

分类和预测是预测问题的两种主要类型，分类主要是预测分类标号（离散属性），而预测主要是建立连续值函数模型，预测给定自变量对应的因变量的值。

分类

分类是构造一个分类模型，输入样本的属性值，输出对应的类别，将每个样本映射到预先定义好的类别。分类模型建立在已有类标记的数据集上，模型在已有样本上的准确率可以方便的计算，所以分类属于有监督的学习。

分类算法分两步：第一步是学习，通过归纳分析训练样本集来建立分类模型得到分类规则；第二步是分类，先用已知的测试样本集评估分类规则的准确率，如果可以接受，则用该模型对未知标号的待测样本集进行预测。

预测

预测是指建立两种或两种以上变量间相互依赖的函数模型，然后进行预测或控制。

预测模型也分两步，第一步是通过训练集建立预测属性的函数模型；第二步在模型通过检验后进行预测或控制。

聚类分析

与分类不同，聚类分析是在没有给定划分类别的情况下，根据数据相似度进行样本分组的一种方法。与分类模型需要使用有类标记样本构成的训练数据不同，聚类模型可以建立在无类标记的数据上，是一种非监督的学习方法。

聚类的输入是一组未被标记的样本，聚类根据数据自身的距离或相似度将其划分为若干组，划分的原则是组内距离最小化而组间（外部）距离最大化。

关联规则

关联规则分析是数据挖掘中最活跃的研究方法之一，目的是在一个数据集中找出各项之间的关联关系，而这种关系并没有在数据中直接表示出来。

时序模式

对于时间序列，首先要进行预处理，拿到一个观测值序列，首先要对它的纯随机性和平稳性进行检验。根据检验结果可以将序列分为不同的类型，对不同类型的序列会采取不同的分析方法。总的来说，时间序列分析，就是给定一个已被观测了的时间序列，预测该序列的未来值。

常用的时间序列模型有：平滑法、趋势拟合法、组合模式、AR模型、MA模型、ARMA模型、ARIMA模型等。

离群点检测

离群点检测是数据挖掘中重要的一部分，它的任务是发现与大部分其他对象显著不同的对象。大部分数据挖掘方法都将这种差异信息视为噪声而丢弃，然而在一些应用中，罕见的数据可能蕴含着更大的研究价值。因为离群点的属性值明显偏离期望的或常见的属性值，所以离群点检测也称偏差检测。

离群点检测已经被广泛应用于电信和信用卡的诈骗检测、贷款审批、电子商务、网络入侵和天气预报等领域。

离群点分类

数据范围：全局离群点和局部离群点

从整体来看，某些对象没有离群特征，但是从局部来看，却显示了一定的离群性。

数据类型：数值型离群点和分类型离群点

这是以数据集的属性类型进行划分的。

属性个数：一维离群点和多维离群点

一个对象可能有一个或多个属性。

网友评论

嵌牛IT观察

本文标题：python数据分析与挖掘

本文链接：https://www.haomeiwen.com/subject/zqtvfktx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

python数据分析与挖掘

相关文章