一. 开发环境
框架:scikit-learn
工具:pycharm,ANACONDA
二.开发基础
2.1 概念
数据集下载:scikit-learn内置数据集或者直接下载的
数据集:数据整体
样本:每一行数据
特征:除最后一列,每一列表达样本的一个特征
标记:最后一列
特征值、特征向量、特征空间
2.2基本任务:
分类任务、回归任务
2.2.1 分类任务
二分类任务:例如:判断邮件是否为垃圾邮件
多分类任务:图像识别,数字识别
多标签分类:
2.2.2回归任务
回归任务:结果是一个连续数字的值,而非一个类别。
例如:房屋价格,市场分析,学生成绩,股票价格
一些情况下,回归任务可以简化成分类任务。
2.3什么是机器学习?
输入大量资料-》机器学习算法-》模型-》输出结果
模型:f(x)
2.4机器学习的分类
(1)监督学习:给机器的训练数据拥有“标记”或“答案”
例如:图像已经拥有了标定信息;银行已经积累了一定的客户信息和他们信用卡的信用情况
监督学习算法:K近邻、线性回归和多项式回归、逻辑回归、SVM、决策树与随机森林
(2)非监督学习:给机器的训练数据没有任何“标记”或“答案”
聚类分析:对没有“标记”的数据进行分析
非监督学习的意义:对数据进行降维处理;方便可视化;异常检测
a.特征提取:例如:信用卡的信用评级和人的胖瘦无关
b. 特征压缩:PCA:尽量少的损失信息的情况下将高维的特征向量压缩成低维的特征向量
(3)半监督学习:一部分数据有“标记”或“答案”,另一部分数据没有。(更常见)
通常都先使用无监督学习手段对数据做处理,之后使用监督学习手段做模型的训练和预测
(4)增强学习:根据周围环境的情况,采取行动,根据采取行动的结果,学习行动方式。
例如:无人驾驶、机器人
2.5机器学习的其他分类
(1)批量(离线)学习和在线学习:
a. 批量学习
优点:简单。
问题:如何适应环境变化?解决方案:定时重新批量学习。(例如定时3个月重新将新样本和旧样本形成新的数据集来重新批量学习)
缺点:每次批量学习,运算量巨大;在某些环境变化非常快的情况下,甚至是不可能的。
b. 在线学习
优点:及时反映新的环境变化。
问题:新的数据带来不好的变化?解决方案:需要加强对数据进行监控。
其他:也适用于数据量巨大,完全无法批量学习的环境。
(2)参数学习和非参数学习:
a. 参数学习:
特点:一旦学习到了参数,就不再需要原有的数据集
b. 非参数学习:
不对模型进行过多假设;非参数不等于没参数
更多:
机器学习学习笔记(三)Jupyter Notebook ,numpy
网友评论