根据目的选择算法
(一般并不存在最好算法,只能在一定程度上缩小算法的选择范围,发现最好算法的途径是反复的试错迭代)
1.若想预测目标变量的值,则选监督学习。若目标变量类型是离散型,则选分类算法,若是连续型数值选回归算法。
如果不想预测目标变量值,则选无监督学习。如需将数据划分为离散的组是唯一需求则使用聚类算法。如还需估计数据无与每个分组的相似程度,则需要使用密度估计算法。
应用程序开发步骤
1.收集数据
爬虫、RSS反馈、API信息
2. 准备输入数据
为机器学习算法准备特定的数据格式,如字符串类型、整数类型。
3.分析输入数据
特征值是离散型变量还是连续型变量
特征值是否存在缺失,缺失原因
是否存在异常值
某个特征发生的频率如何
4.训练算法
将格式化数据输入到算法从中抽取知识或信息。
将知识存储为计算机可处理的格式,方便后续使用。
如监督学习不存在目标变量值,故不需要训练算法。
5.测试算法
检验算法成功率
6.使用算法
将机器学习算法转换为应用程序,执行实际任务。
网友评论