数据挖掘十大算法初步了解

作者: huixinzZ | 来源:发表于2018-12-24 10:40 被阅读0次

数据挖掘十大算法初步了解
十大经典数据挖掘算法
学习笔记二：数据挖掘最佳路径--摘自陈旸课程
机器学习_总结篇_十大经典算法与算法选择
世界著名计算机教材精选《数据挖掘十大算法》
EM算法
扣丁学堂大数据培训简述常用的数据挖掘算法有哪些
扣丁学堂大数据培训分享数据挖掘的经典算法
数据挖掘十大经典算法-C4.5算法
购物篮分析算法与实践

最近在学习陈旸老师的数据分析专栏，在简书记录一些学习笔记

分类算法：C4.5，朴素贝叶斯，SVM，KNN，Adaboost，CART
聚类算法：K-means，EM
关联算法：Apriori
连接分析：PageRank

1. C4.5

C4.5是决策树的算法，创造性地在决策树构成过程中就进行了剪枝，并且可以处理连续的属性，也能对不完整的数据进行处理。

2. 朴素贝叶斯（Naive Bayes）

对于给出的未知物体X，想要进行分类，就需要求解在这个X出现的条件下各个类别出现的概率，哪个最大，就认为这个X属于哪个分类。

3. SVM（Support Vector Machine 支持向量机）

SVM在训练中简历了一个超平面的分类模型。

4. KNN（K-Nearest Neighbor K最近邻算法）

K近邻，每个样本都可以用它最接近的K个邻居来代表。
如果一个样本的K个最接近的邻居都属于分类A，那个这个样本也属于分类A。

5. AdaBoost

AdaBoost在训练中建立了一个联合的分类模型。
boost在英文字代表提升，所以AdaBoost是个构建分类器的提升算法，它可以让多个弱的分类器组成一个强的分类器。

6. CART（Classification and Regression Trees 分类和回归树）

构建了两颗树：一棵是分类树，另一棵是回归树。和C4.5一样，是一个决策树学习方法。

7. Apriori

是一种挖掘关联规则（association rules）的算法，通过挖掘频繁项集（frequent item sets）来揭示物品之间的关联关系，广泛应用于商业挖掘和网络安全等领域。

频繁项集是指经常出现在一起的物品和集合，关联规则暗示着两种物品之间可能存在很强的关系。

8. K-Means

把物体划分为K类，假设每个类别里都有个“中心点”，它就是这个类别的核心。现在有一个新点要归类，计算这个新点与K个中心点的距离，距离哪个中心点近，就变成了哪个类别。

9. EM（最大期望算法）

是求参数的最大似然估计的一种方法。
假设想要评估参数A和参数B，开始状态下两者都是未知的，知道了A的信息就可以得到B的信息，反过来知道了B也就知道了A。可以先赋予A某个初值，一次得到B的估值，然后从B的估值出发，重新评估A 的取值，这个过程一直持续到收敛为止。

10. PageRank

当一个页面链出的页面越多，说明这个页面的“参考文献”越多；当这个页面被链入的频率越高，说明这个页面被引用的次数越高。基于这个原理可以得到网站的权重划分。

网友评论

本文标题：数据挖掘十大算法初步了解

本文链接：https://www.haomeiwen.com/subject/etsakqtx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！