美文网首页
2019-08-24机器学习概览

2019-08-24机器学习概览

作者: 奔跑的考拉_zdpg | 来源:发表于2019-10-11 23:54 被阅读0次

机器学习定义

广义:从数据中学习模型

工程:T,E,P

为什么要使用机器学习

有哪几类问题是传统编程解决不了的

很多规则,比如垃圾邮件分类;

无法用传统编程解决,比如语音识别,图像识别;

适应新数据;

数据挖掘,复杂问题和海量数据中适应新数据;

机器学习的分类

不同维度分法:

《1》数据有没有标签

监督

分类:预测离散值,

算法:K-Means

比如:癌症患者识别、垃圾邮件的识别

回归:预测连续值,

算法:线性回归,逻辑回归,深度学习

比如:房价的预测、二手车价格的预测、CTR预测

注意:有些回归比如逻辑回归也可多用于分类,主要是可以预测概率

无监督

聚类

算法:K-Means

半监督

Google相册

强化学习

AlphaGo

机器学习的主要挑战

数据集少

数据不具有代表性:采样问题;

数据质量差:错误,异常值,噪声,缺失值

  比如:有些实例明显是异常值,要么直接丢弃,要么手动修改;搜索中的spammer数据,可以丢弃掉;

  比如:某些实例少部分特征;整体忽略这个特征,忽略缺失的实例,将缺失值补充完整,比如用中位数,均值填充;

无关特征:数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限而已。

  特征工程(后面单独扩展):特征构造(四则运算),特征选择,特征生成

  只有训练数据里包含足够多的相关特征,以及较少的无关特征,系统才能学好。

  一个成功的机器学习项目,关键部分是提取出一组好的用来训练的特征集,即特征工程。

过度拟合:模型过于复杂,特征较多;可以尝试简化模型

拟合不足:模型过于简单,没有学到;增加数据集,增加特征

测试与验证

常用的概念:

数据集(data sets)

样本(sample)

属性/特征(attribute/feature)

标签(label)

训练集(training sets)

测试集(test sets)

验证集()

交叉验证

超参数

特征工程

特征提取

相关文章

网友评论

      本文标题:2019-08-24机器学习概览

      本文链接:https://www.haomeiwen.com/subject/zxvcectx.html