机器学习的概述

作者: bad_boy | 来源:发表于2017-03-17 13:17 被阅读73次

    慕课网机器学习课程笔记和补充。

    1什么是机器学习?

    来自知乎

    机器学习:利用计算机从历史数据中找出规律,并把这些规律用到对未来不确定场景的决策。机器学习就是使用计算机来代替人进行数据分析,通过对数据建立数学模型(数学函数)来分析预测问题。

    主体的不同:计算机--机器学习、人--数据分析。数据分析是依靠人从历史数据中找到规,学习效果很大程度以来于人的经验与知识水平,机器学习就是想要抛弃对人的依赖,靠机器来挖掘规律。

    数据:机器学习只是解决问题的框架、算法,需要数据,数据量越大越准确。

    规律:通过机器学习不同的算法去找规律,不同的算法结果不同。数学函数和公式

    2从数据中寻找规律

    传统统计:抽样-描述统计-结论-假设检验-推断。机器学习不受计算能力的限制,直接跳过抽样,对所有数据进行分析。

    可利用可视化技术来观察数据。要进行数据分析,需要先进行量化,用模型拟合规律,函数-->函数曲线-->拟合。低维度的数据可以用可视化,而高纬度时很难用可视化的方法,只能用数学运算。

    3机器学习发展的动力

    用数据代替专家,专家的观点具有片面性和主观性,不够客观

    4业务逻辑的发展历史

    1)领域专家经验的业务逻辑:专家定规则,程序员实现这些规则。

    2)基于统计的业务逻辑分维度统计:做报表,数据分析,受限于数据分析人员的经验

    3)机器学习:

    ①离线机器学习:对昨天数据的研究,用算法分析形成一个模型,指导明天的活动。缺点存在偶然性,如双11的集中购物,人买东西具有偶然性。

    ②在线机器学习:实时的对数据进行分析,不断的形成模型对用户进行指导(要考虑数据流)

    5机器学习的典型应用

    1)购物篮分析

    关联规则。数据挖掘,把销量提供,数据变成钱。啤酒+纸尿片是数据变成钱的最早的一个例子。

    关联营售,根据购买商品联想到消费者可能会购买的其他商品

    2)用户细分精确营销

    把用户消费的数据利用聚类算法,可以根据用户信息,自动对用户进行分类。

    全球通,用户细分,精准营销,出差的人有全球通vip候机区,很有面。

    动感地带,主要针对学生,短信多。

    神州行,针对工作人员,打电话比较多。

    聚类+机器学习的算法=分类

    3)垃圾邮件识别

    朴素贝叶斯算法

    信用卡欺诈

    风险识别、欺诈识别(故意)、消费透支(无意的)。决策树算法

    4)互联网广告

    CTR预估算法:点击率的预估。互联网广告排序按(预估客户可能点的概率)按概率大小排序,这种算法叫ctr预估,背后的算法是逻辑回归。

    推荐系统(类似于购物篮分析)

    协同过滤算法,电商的推荐

    5)自然语言处理

    情感分析(对文本抓关键情感词)

    实体识别(提取文本主要数据,人名等)

    6)深度学习

    图像识别、语音识别,人脸识别,手势控制,智慧机器人,实时翻译,自动驾驶,视频内容自动识别。

    6机器学习和数据分析的区别

    慕课网

    1)数据特点

    ①交易数据vs行为数据

    交易数据:存取款账单、用户订单、话费账单...与钱有关的数据。对数据一致性要求很高,应该放在关系型数据库中。数据分析处理的是交易数据

    行为数据:搜索历史、点击历史、浏览历史、评论的数据。对数据一致性要求不是很高,放在NoSQL数据库中。机器学习处理的是行为数据

    ②少量数据vs海量数据

    ③采样分析vs全量分析

    2)处理数据的方式

    NoSQL:只能处理行为数据,不能处理交易数据。强调分布式和CAP,在保证数据吞吐量的前提下,在数据的一致性上打折扣。

    3)解决业务问题和参与者不同

    机器学习--预测未来,数据质量决定结果,目标用户是个体。分析方法:数据驱动,自动进行知识发现。

    数据分析--报告过去,分析师能力决定结果,目标用户是公司高层。分析方法:用户驱动,交互式分析

    7机器学习常见分类算法

    算法分类1:根据数据有无标签Y进行分类

    对样本数据进行一些训练,得到模型,通过模型判断X与Y的关系。

    有监督学习:训练数据中已经明确给出了该数据的Y,给数据打上了标签。如:已对邮件打上了“垃圾邮件”、“正常邮件”的标签。包括:分类算法、回归算法。

    无监督学习:训练数据并没有Y,数据没有任何标签。典型算法:聚类。

    半监督学习:也叫强化学习,数据越多,模型越好。

    算法分类2:根据解决问题进行分类

    分类与回归、聚类、标注

    算法分类3(重要,直指本质)

    生成模型:用来说明分类问题。返回的是属于各个类的概率。

    判别模型:用来说明分类问题。直接给一个函数,数据输入到函数中,直接返回类别。

    8常见机器学习算法

    这些方法先了解一下就行了。

    慕课网 慕课网

    1、4、10不再常用

    1C4.5、CART:属于决策树算法,既可以解决分类问题,也可以解决回归问题。主要解决分类问题。属于有监督算法。很少使用。

    2K-Means:聚类算法,无监督学习算法。

    3SVN:主要解决分类问题,最好的分类算法,有完整的数学理论。(重要)

    4Apriori:关联分析算法,淘汰,多次访问数据库代价高。

    5FP-Grows:Apriori的升级版,只需对数据库进行两遍扫描。(韩家伟)

    6EM:总的算法框架,不针对某一具体问题。

    7AdaBoost:决策树的改进版,主要用于人脸识别,本质上解决分类问题。属于有监督学习。

    8kNN:分类算法,有监督学习。与K-Means有点像,无监督学习。

    9naive bayes垃圾邮件识别。

    9机器学习解决问题

    1:确定目标

    业务需求:知道要做什么。(近几年在顶尖科学杂志上发表的大数据文章都是来自行业专家,而并非计算机专家,这从另外一个方面反映了业务知识的重要性)

    数据:学习的基础。

    特征工程:特征提取阶段,对数据清洗、整合、分析需要的变量等    

    2:训练模型(重点和难点)

    定义模型:确定算法。

    定义损失函数:找出算法的偏差(定义预测结果与真实结果怎么去评价两者的相似程度)。

    优化算法:对算法进行优化(损失函数取最小值,最终变为求函数极小值的问题)。

    3:模型评估

    交叉验证:将不同的算法带入同一类数据中,验证效果(根据优化算法,将历史数据代入之后为了使损失函数最小,就得到了相应的参数系数,这样就得到了相应的模型,这个模型就是根据历史数据计算出来的模型了)。

    效果评估:可以看出几个算法之间具体的差别、效果。

    注意:如果最终的指标不求得满足的话,要重新调整特征工程,或是重新求得模型的参数,这是一个不断迭代的过程

    利用python实现kmeans算法的图像聚类

    image2vector 将图片转变为向量的算法

    word2vector 将文本转变为向量的算法

    特征工程:将RGB二进制文件转变为机器学习需要的数据格式。

    图片存储是通过RGB格式进行的,每一个像素点是由3个数字组成的(红、绿、蓝)。

    相关文章

      网友评论

        本文标题:机器学习的概述

        本文链接:https://www.haomeiwen.com/subject/xxjenttx.html