-
首先要了解的是目前机器学习工作中,最常见的三种任务就是:
1.回归
2.分类
3.聚类
-
以下给出三种任务最本质和通俗的理解:
回归(regression) :定量输出称为回归,或者说是对连续变量的预测
实例 :预测一个西瓜的重量是一个回归任务
分类(classification) :定性输出称为分类,或者说是对离散变量的预测
实例 :判断一个西瓜的生熟
聚类(clustering) :聚类的结果将产生一组集合,集合中的对象与同集合中的对象彼此相似,与其他集合中的对象相异。
实例 :根据不同用户对短视频app的观看习惯将用户划分为军事、科技、电影等类型的用户
-
分类和聚类的区别
分类的目的是为了确定一个样本的类别,样本具体有哪些类别是已知的,是一种有监督学习。
聚类的目的是将一系列样本分成若干类,样本事先是没有类别标记的,是一种无监督学习。
上面概念中提到的监督学习、无监督学习是不同的机器学习方法。
监督学习:对具有标记的训练样本进行学习,以尽可能对训练样本集外的数据进行预测。(训练数据+标签)
无监督学习:对未标记的样本进行训练学习,发现这些样本中的结构知识。 (仅有训练数据)
-
经典的分类算法
算法名称 类别 应用 Logistic回归(逻辑回归) 线性模型,监督学习 二分类见多 LDA(线性判别分析) 线性模型,监督学习 二分类见多 KNN(K-Nearest Neighbors K近邻) 非线性模型,监督学习 多分类 Native-Bayes(朴素贝叶斯) 非线性模型,监督学习 多分类 Decision Tree (决策树) 非线性模型,监督学习 多分类 SVM(支持向量机) 非线性模型,监督学习 多分类 -
总结
分类是在一群已经知道类别标号的样本中,训练一种分类器,让其能够对某种未知的样本进行分类。分类算法属于一种有监督的学习。分类算法的分类过程就是建立一种分类模型来描述预定的数据集或概念集,通过分析由属性描述的数据库元组来构造模型。分类的目的就是使用分类对新的数据集进行划分,其主要涉及分类规则的准确性、过拟合、矛盾划分的取舍等。
网友评论