绪论
机器如何学习
监督式学习- 算法类型
- 按输入空间划分
- Concrete Feature
- Raw Feature
- Abstract Features
- 按输出空间划分
- 分类问题
- 回归问题
- 结构化学习
- 按不同协议划分
- Batch Learning
- Online Learning
- Active Learning
- 按样本标签划分
- 监督式学习
- 分类:将实例数据划分到合适的分类中(垃圾邮件的过滤)
- K-近邻
- Logistic回归
- 决策树
- 支持向量机
- 朴素贝叶斯
- AdaBoost
- 回归:预测数值型数据(房屋价格预测)
- 线性回归
- 树回归
- Ridge回归
- Lasso最小回归系数估计
- 分类:将实例数据划分到合适的分类中(垃圾邮件的过滤)
- 半监督式学习
- 非监督式学习
- K-均值聚类:新闻报道自动分类
- 最大期望算法
- DBSCAN
- Parzen窗设计
- 监督式学习
- 按输入空间划分
监督学习一般使用两种类型的目标变量
- 标称型,目标变量只在有限目标集中取值
- 数值型,目标变量可以从无限数值集合中取值
选择算法
- 目的:
- 预测目标变量值:监督学习算法
- 目标变量类型离散型:分类器算法
- 目标变量类型连续型:回归算法
- 不预测目标变量值:非监督学习算法
- 将数据划分为离散的组:聚类算法
- 估计数据和每个分组的相似程度:密度估计算法
- 预测目标变量值:监督学习算法
- 数据
- 特征值为离散型变量或连续型变量
- 特征值中是否存在缺失值,何种原因造成缺失值
- 数据中是否存在异常值,某个特征发生的频率如何
开发机器学习应用程序的步骤
- 收集数据
- 准备输入数据
- 分析输入数据:缺失值、异常值、维度压缩
- 训练算法:非监督学习不存在此步
- 测试算法:监督学习——必须已知用于评估算法的目标变量值;无监督学习——必须用其他的评测手段来检验算法的成功率。
- 使用算法
网友评论