机器学习的概述

作者: bad_boy | 来源:发表于2017-03-17 13:17 被阅读73次

机器学习实践应用
机器学习概述
机器学习概述
机器学习概述
机器学习概述
机器学习概述
机器学习概述
机器学习概述
机器学习概述
机器学习概述

慕课网机器学习课程笔记和补充。

1什么是机器学习？

来自知乎

机器学习：利用计算机从历史数据中找出规律，并把这些规律用到对未来不确定场景的决策。机器学习就是使用计算机来代替人进行数据分析，通过对数据建立数学模型（数学函数）来分析预测问题。

主体的不同：计算机--机器学习、人--数据分析。数据分析是依靠人从历史数据中找到规，学习效果很大程度以来于人的经验与知识水平，机器学习就是想要抛弃对人的依赖，靠机器来挖掘规律。

数据：机器学习只是解决问题的框架、算法，需要数据，数据量越大越准确。

规律：通过机器学习不同的算法去找规律，不同的算法结果不同。数学函数和公式

2从数据中寻找规律

传统统计：抽样-描述统计-结论-假设检验-推断。机器学习不受计算能力的限制，直接跳过抽样，对所有数据进行分析。

可利用可视化技术来观察数据。要进行数据分析，需要先进行量化，用模型拟合规律，函数-->函数曲线-->拟合。低维度的数据可以用可视化，而高纬度时很难用可视化的方法，只能用数学运算。

3机器学习发展的动力

用数据代替专家，专家的观点具有片面性和主观性，不够客观

4业务逻辑的发展历史

1）领域专家经验的业务逻辑：专家定规则，程序员实现这些规则。

2）基于统计的业务逻辑分维度统计：做报表，数据分析，受限于数据分析人员的经验

3）机器学习：

①离线机器学习：对昨天数据的研究，用算法分析形成一个模型，指导明天的活动。缺点存在偶然性，如双11的集中购物，人买东西具有偶然性。

②在线机器学习：实时的对数据进行分析，不断的形成模型对用户进行指导（要考虑数据流）

5机器学习的典型应用

1）购物篮分析

关联规则。数据挖掘，把销量提供，数据变成钱。啤酒+纸尿片是数据变成钱的最早的一个例子。

关联营售，根据购买商品联想到消费者可能会购买的其他商品

2）用户细分精确营销

把用户消费的数据利用聚类算法，可以根据用户信息，自动对用户进行分类。

全球通，用户细分，精准营销，出差的人有全球通vip候机区，很有面。

动感地带，主要针对学生，短信多。

神州行，针对工作人员，打电话比较多。

聚类+机器学习的算法=分类

3）垃圾邮件识别

朴素贝叶斯算法

信用卡欺诈

风险识别、欺诈识别（故意）、消费透支（无意的）。决策树算法

4）互联网广告

CTR预估算法：点击率的预估。互联网广告排序按（预估客户可能点的概率）按概率大小排序，这种算法叫ctr预估，背后的算法是逻辑回归。

推荐系统（类似于购物篮分析）

协同过滤算法，电商的推荐

5）自然语言处理

情感分析（对文本抓关键情感词）

实体识别（提取文本主要数据，人名等）

6）深度学习

图像识别、语音识别，人脸识别，手势控制，智慧机器人，实时翻译，自动驾驶，视频内容自动识别。

6机器学习和数据分析的区别

慕课网

1）数据特点

①交易数据vs行为数据

交易数据：存取款账单、用户订单、话费账单...与钱有关的数据。对数据一致性要求很高，应该放在关系型数据库中。数据分析处理的是交易数据

行为数据：搜索历史、点击历史、浏览历史、评论的数据。对数据一致性要求不是很高，放在NoSQL数据库中。机器学习处理的是行为数据

②少量数据vs海量数据

③采样分析vs全量分析

2）处理数据的方式

NoSQL：只能处理行为数据，不能处理交易数据。强调分布式和CAP，在保证数据吞吐量的前提下，在数据的一致性上打折扣。

3）解决业务问题和参与者不同

机器学习--预测未来，数据质量决定结果，目标用户是个体。分析方法：数据驱动，自动进行知识发现。

数据分析--报告过去，分析师能力决定结果，目标用户是公司高层。分析方法：用户驱动，交互式分析

7机器学习常见分类算法

算法分类1：根据数据有无标签Y进行分类

对样本数据进行一些训练，得到模型，通过模型判断X与Y的关系。

有监督学习：训练数据中已经明确给出了该数据的Y，给数据打上了标签。如：已对邮件打上了“垃圾邮件”、“正常邮件”的标签。包括：分类算法、回归算法。

无监督学习：训练数据并没有Y，数据没有任何标签。典型算法：聚类。

半监督学习：也叫强化学习，数据越多，模型越好。

算法分类2：根据解决问题进行分类

分类与回归、聚类、标注

算法分类3（重要，直指本质）

生成模型：用来说明分类问题。返回的是属于各个类的概率。

判别模型：用来说明分类问题。直接给一个函数，数据输入到函数中，直接返回类别。

8常见机器学习算法

这些方法先了解一下就行了。

慕课网

1、4、10不再常用

1C4.5、CART：属于决策树算法，既可以解决分类问题，也可以解决回归问题。主要解决分类问题。属于有监督算法。很少使用。

2K-Means：聚类算法，无监督学习算法。

3SVN：主要解决分类问题，最好的分类算法，有完整的数学理论。（重要）

4Apriori：关联分析算法，淘汰，多次访问数据库代价高。

5FP-Grows：Apriori的升级版，只需对数据库进行两遍扫描。(韩家伟)

6EM：总的算法框架，不针对某一具体问题。

7AdaBoost：决策树的改进版，主要用于人脸识别，本质上解决分类问题。属于有监督学习。

8kNN：分类算法，有监督学习。与K-Means有点像，无监督学习。

9naive bayes垃圾邮件识别。

9机器学习解决问题

1：确定目标

业务需求：知道要做什么。（近几年在顶尖科学杂志上发表的大数据文章都是来自行业专家，而并非计算机专家，这从另外一个方面反映了业务知识的重要性）

数据：学习的基础。

特征工程：特征提取阶段，对数据清洗、整合、分析需要的变量等

2：训练模型（重点和难点）

定义模型：确定算法。

定义损失函数：找出算法的偏差（定义预测结果与真实结果怎么去评价两者的相似程度）。

优化算法：对算法进行优化（损失函数取最小值，最终变为求函数极小值的问题）。

3：模型评估

交叉验证：将不同的算法带入同一类数据中，验证效果（根据优化算法，将历史数据代入之后为了使损失函数最小，就得到了相应的参数系数，这样就得到了相应的模型，这个模型就是根据历史数据计算出来的模型了）。

效果评估：可以看出几个算法之间具体的差别、效果。

注意：如果最终的指标不求得满足的话，要重新调整特征工程，或是重新求得模型的参数，这是一个不断迭代的过程

利用python实现kmeans算法的图像聚类

image2vector 将图片转变为向量的算法

word2vector 将文本转变为向量的算法

特征工程：将RGB二进制文件转变为机器学习需要的数据格式。

图片存储是通过RGB格式进行的，每一个像素点是由3个数字组成的（红、绿、蓝）。

机器学习实践应用
简介人工智能机器学习深度学习机器学习概述机器学习概述背景图灵发展现状数据现状 Facebook瓶...
机器学习概述
机器学习 1. 定义机器学习是多领域交叉学科，机器学习从业者需要掌握一定的编程技能、数理统计知识以及相应的专业领...
机器学习概述
机器学习是什么？就是计算机从数据中学习出规律和模式，以应用在新数据上做预测的任务。如下图：机器学习分类 1、监...
机器学习概述
机器学习的算法主要分为：监督学习非监督学习半监督学习强化学习监督学习就是分类，通过已有的训练样本去得到一...
机器学习概述
概念机器就是计算机，“如果一个系统能够通过执行某个过程改进它的性能，这就是学习” ——赫尔伯特·西蒙（Herbe...
机器学习概述
机器学习是实现人工智能的手段，其主要研究内容弄是如何利用数据或经验进行学习，改善算法的性能。机器学习的分类监督学...
机器学习概述
机器学习分为【监督学习】和【无监督学习】。监督学习是有明确目的的，数据的输出都是有预期的。无监督学习是没有明确...
机器学习概述
一、机器学习使用场景想入门机器学习的同学，经常会去看一些入门书，比如《集体智慧编程》、《机器学习实战》、《数据挖...
机器学习概述
近些年来机器学习挺火，落地场景越来越多，挺看好它的未来发展，学习机器学习快一年了，在这一年里，积累了很多笔记及心得...
机器学习概述
机器学习不仅仅是一种简单的算法，还可以将其放在其他任何地方以获得奇妙的结果。机器学习是一个从定义数据开始，最终获得...

机器学习的概述

1什么是机器学习？

2从数据中寻找规律

3机器学习发展的动力

4业务逻辑的发展历史

5机器学习的典型应用

6机器学习和数据分析的区别

7机器学习常见分类算法

8常见机器学习算法

9机器学习解决问题

相关文章

机器学习实践应用

机器学习概述

机器学习概述

机器学习概述

机器学习概述

机器学习概述

机器学习概述

机器学习概述

机器学习概述

机器学习概述

网友评论

延伸阅读

深度阅读

栏目导航

热点阅读

机器学习和人工智能入门