美文网首页黑客知识大搜罗技术干货
大数据挖掘技术-->1.0 概述

大数据挖掘技术-->1.0 概述

作者: Dongle聊测试 | 来源:发表于2017-09-27 17:37 被阅读35次


    以下是文字提取部分,阅读 完毕的同学可以离开了

    大数据是一门十分受欢迎的课程
    有多欢迎呢
    就算我不介绍,你都应该明白它是什么
    所以我要跳过官方话,直奔主题

    大数据的;体系结构;

    这里会挑几个概念来讲,其余的后面会涉及
    ;采集;分为三个方面
    ;自动生成;类似学生的成绩
    这些成绩躺在数据库里(DB)
    ;汇总而成;类似平均成绩
    计算而成在数据仓库(DW)
    ;第三方;由许多调研机构组成

    值得一提的是
    采集到的数据要汇总到;历史仓库;
    经过一段时间后,不被使用的数据成为;休眠数据;
    这些数据往往会;被删除;

    ;大数据功能;

    ;关联分析;
    这里有个故事叫:啤酒尿布
    美国妇女们经常会;嘱咐;她们的丈夫
    下班以后要为孩子;买尿布;
    丈夫在买完尿布之后又要顺手买回自己爱喝的;啤酒;
    因此啤酒和尿布在一起购买的机会还是很多的
    这里的啤酒和尿布形成了一种;关联;

    关联分析是寻找;项与项;之间的关系
    这个关系有2个常见参数
    ;sup支持度;和;conf可信度;
    sup指买啤酒和尿布的占所有人的百分比
    conf指既买尿布又买啤酒的占买过尿布的人的百分比
    在这里,尿布和啤酒都是;集合;
    他们的;交集为空;

    请注意:尿布和啤酒;不是;因果关系
    ;X;因为买尿布所以买啤酒
    这个过程;不可逆;
    ;X;买了啤酒可能买尿布

    这两个指数怎么用?
    设a,b,c三个项
    我会问哪两两关联达到sup=50%conf=30%
    通常做法是一步一步计算
    需要知道a,c的数量
    a关联c的数量,然后通过上面的公式计算
    我称这种方法为;穷举法;

    这种方法;很糟糕;
    我推荐你使用apriori算法
    条件:哪些相关联达到sup50%,conf30%
    你需要测出a的sup和c的sup
    如果a或者c的sup不满足50%
    那a,c必然不会符合关联条件

    ;分类与预测;
    分类的定义:;分类已知数据;
    比如下面的一组数据,称为;训练集;
    它有特征标识
    ;第一列;就是特征标识

    根据标识;建立模型;
    模型通过;分类器;生成一个新的数据
    称为;测试集;
    这个测试集可以;预测未来;
    最大的特点是没有特征标识

    下面就是;测试集;

    通过;分析训练集;
    我们可以对每个类别建立;分类分析模型;
    从而利用这个模型
    返回来对其他;测试集;进行分类
    这里主要有三个技术

    ;聚类分析;
    我知道你的疑问:聚类与分类的;区别;
    聚类主要是对;相似/相异;的数据进行分组
    它的数据;没有标识;
    并且;没有;测试集和训练集
    与分类的;技术不同;
    而且,它们俩的;应用范围;不一样

    下面是两种聚类算法
    第一种明显要;好于;第二种
    因为第二种蓝色与蓝色之间已经;分开;
    红色与红色也;分开;的

    标准流程就是一个;闭环;
    这个闭环称为:;CRISP-DM模型;
    你需要业务理解、数据理解、数据准备、建立模型…
    而数据理解就像你要;买菜;
    数据准备就是;切菜;

    相关文章

      网友评论

        本文标题:大数据挖掘技术-->1.0 概述

        本文链接:https://www.haomeiwen.com/subject/eanuextx.html