最近在学习陈旸老师的数据分析专栏,在简书记录一些学习笔记
- 分类算法:C4.5,朴素贝叶斯,SVM,KNN,Adaboost,CART
- 聚类算法:K-means,EM
- 关联算法:Apriori
- 连接分析:PageRank
1. C4.5
C4.5是决策树的算法,创造性地在决策树构成过程中就进行了剪枝,并且可以处理连续的属性,也能对不完整的数据进行处理。
2. 朴素贝叶斯(Naive Bayes)
对于给出的未知物体X,想要进行分类,就需要求解在这个X出现的条件下各个类别出现的概率,哪个最大,就认为这个X属于哪个分类。
3. SVM(Support Vector Machine 支持向量机)
SVM在训练中简历了一个超平面的分类模型。
4. KNN(K-Nearest Neighbor K最近邻算法)
K近邻,每个样本都可以用它最接近的K个邻居来代表。
如果一个样本的K个最接近的邻居都属于分类A,那个这个样本也属于分类A。
5. AdaBoost
AdaBoost在训练中建立了一个联合的分类模型。
boost在英文字代表提升,所以AdaBoost是个构建分类器的提升算法,它可以让多个弱的分类器组成一个强的分类器。
6. CART(Classification and Regression Trees 分类和回归树)
构建了两颗树:一棵是分类树,另一棵是回归树。和C4.5一样,是一个决策树学习方法。
7. Apriori
是一种挖掘关联规则(association rules)的算法,通过挖掘频繁项集(frequent item sets)来揭示物品之间的关联关系,广泛应用于商业挖掘和网络安全等领域。
频繁项集是指经常出现在一起的物品和集合,关联规则暗示着两种物品之间可能存在很强的关系。
8. K-Means
把物体划分为K类,假设每个类别里都有个“中心点”,它就是这个类别的核心。现在有一个新点要归类,计算这个新点与K个中心点的距离,距离哪个中心点近,就变成了哪个类别。
9. EM(最大期望算法)
是求参数的最大似然估计的一种方法。
假设想要评估参数A和参数B,开始状态下两者都是未知的,知道了A的信息就可以得到B的信息,反过来知道了B也就知道了A。可以先赋予A某个初值,一次得到B的估值,然后从B的估值出发,重新评估A 的取值,这个过程一直持续到收敛为止。
10. PageRank
当一个页面链出的页面越多,说明这个页面的“参考文献”越多;当这个页面被链入的频率越高,说明这个页面被引用的次数越高。基于这个原理可以得到网站的权重划分。
网友评论