1. 什么是机器学习
机器学习是一门通过编程让计算机从数据中进行学习的科学和艺术。
机器学习是一个研究领域, 让计算机无须进行明确编程就具备学习能力。
——— Arthur Samuel
机器学习与传统编写逻辑规则的区别:
ML_Concept.png
2. 机器学习应用场景
场景 | 应用技术 |
---|---|
对生产线上的程度产品图像进行自动分类 | CNN(卷积神经网络) |
对新闻进行自动分类 | NLP(自然语言处理)/RNN(循环神经网络) |
识别网站恶意评论 | NLP(自然语言处理) |
聊天机器人 | NLU(自然语言理解)/问答模块 |
预测问题(预测销售额/预测库存等) | 回归(SVM回归/随机森林回归/人工神经网络 |
信用卡欺诈检测 | 异常检测 |
基于购买或浏览记录给客户推荐感兴趣的产品 | 推荐系统 |
游戏智能机器人 | 强化学习 |
3. 机器学习分类
分类标准 | 学习类型 |
---|---|
是否在人类监督下训练 | 有监督学习, 无监督学习, 半监督学习, 强化学习 |
是否可以动态增量学习 | 在线学习, 批量学习 |
-
有监督学习
基本概念:
- 标签: 提供给算法的包含解决方案的训练集
分类任务是一个典型的有监督学习任务。
eg:
垃圾邮件过滤器通过对大量的邮件及其所属类别(垃圾/常规)进行训练, 学习如何对新邮件进行分类。
回归案例
eg:
通过对大量的汽车特征(eg: 里程, 使用年限, 品牌等)训练, 预测汽车的价格。
重要的有监督学习算法:
-
K-近邻算法
-
线性回归
-
逻辑回归
-
支持向量机(SVM)
-
决策树和随机森林
-
神经网络
-
无监督学习
无监督学习的训练数据都是未经过标记的, 系统会在没有老师的情况下学习。
重要的无监督学习算法:
算法大类 | 算法名称 |
---|---|
聚类算法 | K-均值算法 |
- | DBSCAN |
- | HCA(分层聚类分析) |
------------------------------ | ------------------------------ |
异常和新颖性检测 | 单类SVM |
- | 孤立森林 |
------------------------------ | ------------------------------ |
降维和可视化 | PCA(主成分分析) |
- | LLE(局部线性嵌入) |
- | t-SHE(t-分布随机近邻嵌入) |
------------------------------ | ------------------------------ |
关联规则学习 | Apriori |
- | Eclat |
关联规则学习案例:
eg:
一家超市通过销售数据库的记录发现, 购买薯片的人也倾向于购买一些牛排,
那么你可以将这两样商品摆放得更近一些。
-
半监督学习
给数据做标记(通常称打点)是非常耗时和昂贵的。
如果有很多没有标记的数据怎么办?
可以处理部分已标记的数据的算法称为半监督学习。
案例:
Google相册
通过你给某些照片标签之后,系统自动告诉你新的照片是什么, 给照片命名。
-
强化学习
强化学习能够观察环境,做出选择,执行动作,随着时间推移获得最大的回报,因此它可以成为一个学习巨兽。
案例:
DeepMind的AlphaGo是一个非常好的强化学习的案例。
-
批量学习
系统需要全量数据进行训练,无法进行增量学习。
这通常会耗费大量的时间和计算资源,通常都是离线完成的。
-
在线学习
可以循序渐进地给系统提供训练数据,逐步积累学习成果。
根据泛化方法分类:
-
基于实例学习
说白了就是“死记硬背”。
通常的做法是: 系统死记实例, 然后通过相似度来泛化新的实例。
-
基于模型学习
构建实例集的模型,然后再使用模型进行预测。
4. 机器学习的五大部落
机器学习根据科学领域可以分为五大部落,如下:
部落名 | 来源 | 支配算法 |
---|---|---|
Symbolists(象形学) | 逻辑和哲学 | Inverse deduction(逆向推导) |
Connectionists(关联学) | Neuroscience(神经科学) | Backpropagation(反向传播) |
Evolutionaries(进化学) | Biology(生物学) | Genetic programming(基因编程) |
Bayesians(贝叶斯) | Statistics(统计学) | Probabilistic inference(概率推理) |
Analogizers(类推法) | Psychology(心理学) | Kernel machines(核函数机) |
网友评论