美文网首页
(imooc)初识机器学习—理论篇

(imooc)初识机器学习—理论篇

作者: _Ely | 来源:发表于2018-03-17 19:21 被阅读21次

    机器学习

    image.png

    从数据中寻找规律

    image.png

    *传统统计学方法:
    抽样——描述统计——假设检验
    *现代机器学习:
    从全量中寻找规律


    image.png image.png

    机器学习发展

    image.png

    业务系统发展

    image.png
    • 机器学习:
      离线机器学习:
      缺点:例如电商的某些节日大促销,爆发大量推荐订单等
      解决可以用实时模型实时推荐,即在线学习

    机器学习典型应用

    关联原则

    image.png

    聚类

    image.png

    朴素贝叶斯和决策树

    image.png
    image.png

    ctr预估和协同过滤

    image.png image.png

    自然语言处理和图像识别

    image.png
    image.png image.png
    image.png

    机器学习和数据分析的区别

    image.png

    交易数据


    image.png

    行为数据


    image.png image.png

    机器学习算法分类


    算法分类(1)

    • 有监督学习


    *无监督学习
    eg 聚类算法

    *半监督学习

    算法分类(2)

    根据要解决的问题进行分类

    • 分类与回归
      预测y值,针对具体问题
    • 聚类
    • 标注


      image.png

    算法分类(3)(重要)

    • 生成模型
      (像是陪审团)告诉它属于各个类的概率等,结果模棱两可。
    • 判别模型
      直接给一个函数,丢一个数据返回结果告诉你哪一类,直指最终目的(像是大法官告诉你是哪一类)

    本质区别在于训练数据的思想不同

    image.png

    c4.5 cart属于决策树算法,解决分类问题
    k—means 聚类,像是电信用户的分类。无监督学习的算法
    svm分类算法,基于统计学的算法,有一套完整数学理论支撑,有一定数学门槛(被深度学习光芒盖住)(机器学习面试可能会考)
    aprior 关联分析(淘汰),代价高,需要多次访问数据库
    同样,PF-growth 解决关联规则问题解决aprior的性能问题。只需要对数据库两边扫描就可以完成数据挖掘,(现在推荐系统有了更多的推荐算法)
    PageRank谷歌的算法
    Adaboost 常用于人脸识别,本质为决策树,本质解决分类问题(有监督学习)
    KNN 有监督学习
    朴素贝叶斯 垃圾邮件识别


    image.png

    逻辑回归:百度谷歌搜索结果的排序
    RF,GDBT 同adaboost 决策树算法的改进
    推荐算法
    LDA 用做文本分析与自然语言处理
    WORD2vector 文本挖掘,最终是一个结果,里面用到一系列算法
    深度学习:可用于图像识别等等

    机器学习解决问题框架

    • 确定目标
      业务需求
      数据
      特征工程(重要)
    • 训练模型
      定义模型


      image.png

    定义损失函数
    eg。做线性回归模型,没有精确解的时候找一个近似
    优化算法
    eg 让损失函数更小
    求函数极小值的优化上,数学问题

    • 模型评估
      交叉评估:
      效果评估:

    图片识别demo演示

    image.png

    rgb转hsl抽取特征


    image.png

    把图片转换为向量vector

    相关文章

      网友评论

          本文标题:(imooc)初识机器学习—理论篇

          本文链接:https://www.haomeiwen.com/subject/iwznfftx.html