(1)贝叶斯分类
贝叶斯定理
分别计算每个类别出现的概率,每个类别属性下各个特征属性的条件概率。来计算样本属于某个类别的概率。选择最大值作为类比结果。
朴素贝叶斯源码实现过程中通过聚合函数求各个类别的概率和各个类别下特征的概率。
类方法 NaivebayesModel调用伴生对象 NaiveBayes。
(2)SVM
类方法 SVMWithSGD
(3)决策树算法
相关概念 信息量、信息熵(表示信息量的期望)、信息增益、信息增益比(不再是相对值)、基尼系数,表示某个分区内第i个标签的概率,C为该分区内的类别总数,基尼系数表示类别被分错的可能性。
ID3算法依靠信息增益分类、而C4.5靠信息增益率分类。
MLlib中的决策树是使用随机森林进行封装。要使用决策树算法,将随机森林中的树的棵数设置为1即可。
决策树类DecisionTree;随机森林了RandomForest;
相关参数包括树的最大深度,训练样本集,具体算法类型,分类数量等。
train方法包括:train(支持分类和回归)、trainClassifier(训练分类决策树模型)、trainRegressor(训练回归决策树模型)
网友评论