大数据挖掘技术-->1.0 概述

大数据挖掘技术-->1.0 概述

作者: Dongle聊测试 | 来源:发表于2017-09-27 17:37 被阅读35次

大数据挖掘技术-->1.0 概述
数据挖掘概述
数据挖掘概述
数据挖掘概述
软件设计师考试 | 第八章算法设计与分析 | 数据挖掘算法
记-数据挖掘-数据挖掘概述认识
数据分析4-机器学习1-近邻算法KNN（K-NearestNei
数据挖掘笔记--概述
干货 | 数据挖掘技术在风控领域的典型应用
大数据挖掘技术-->1.1 标准流程

以下是文字提取部分，阅读完毕的同学可以离开了

大数据是一门十分受欢迎的课程
有多欢迎呢
就算我不介绍，你都应该明白它是什么
所以我要跳过官方话，直奔主题

大数据的;体系结构;

这里会挑几个概念来讲,其余的后面会涉及
;采集;分为三个方面
;自动生成;类似学生的成绩
这些成绩躺在数据库里(DB)
;汇总而成;类似平均成绩
计算而成在数据仓库(DW)
;第三方;由许多调研机构组成

值得一提的是
采集到的数据要汇总到;历史仓库;
经过一段时间后，不被使用的数据成为;休眠数据;
这些数据往往会;被删除;

;大数据功能;

;关联分析;
这里有个故事叫：啤酒尿布
美国妇女们经常会;嘱咐;她们的丈夫
下班以后要为孩子;买尿布;
丈夫在买完尿布之后又要顺手买回自己爱喝的;啤酒;
因此啤酒和尿布在一起购买的机会还是很多的
这里的啤酒和尿布形成了一种;关联;

关联分析是寻找;项与项;之间的关系
这个关系有2个常见参数
;sup支持度;和;conf可信度;
sup指买啤酒和尿布的占所有人的百分比
conf指既买尿布又买啤酒的占买过尿布的人的百分比
在这里，尿布和啤酒都是;集合;
他们的;交集为空;

请注意：尿布和啤酒;不是;因果关系
;X;因为买尿布所以买啤酒
这个过程;不可逆;
;X;买了啤酒可能买尿布

这两个指数怎么用？
设a,b,c三个项
我会问哪两两关联达到sup=50%conf=30%
通常做法是一步一步计算
需要知道a,c的数量
a关联c的数量,然后通过上面的公式计算
我称这种方法为;穷举法;

这种方法;很糟糕;
我推荐你使用apriori算法
条件：哪些相关联达到sup50%,conf30%
你需要测出a的sup和c的sup
如果a或者c的sup不满足50%
那a,c必然不会符合关联条件

;分类与预测;
分类的定义：;分类已知数据;
比如下面的一组数据，称为;训练集;
它有特征标识
;第一列;就是特征标识

根据标识;建立模型;
模型通过;分类器;生成一个新的数据
称为;测试集;
这个测试集可以;预测未来;
最大的特点是没有特征标识

下面就是;测试集;

通过;分析训练集;
我们可以对每个类别建立;分类分析模型;
从而利用这个模型
返回来对其他;测试集;进行分类
这里主要有三个技术

;聚类分析;
我知道你的疑问：聚类与分类的;区别;
聚类主要是对;相似/相异;的数据进行分组
它的数据;没有标识;
并且;没有;测试集和训练集
与分类的;技术不同;
而且，它们俩的;应用范围;不一样

下面是两种聚类算法
第一种明显要;好于;第二种
因为第二种蓝色与蓝色之间已经;分开;
红色与红色也;分开;的

标准流程就是一个;闭环;
这个闭环称为：;CRISP-DM模型;
你需要业务理解、数据理解、数据准备、建立模型…
而数据理解就像你要;买菜;
数据准备就是;切菜;

相关文章

大数据挖掘技术-->1.0 概述
以下是文字提取部分，阅读完毕的同学可以离开了大数据是一门十分受欢迎的课程有多欢迎呢就算我不介绍，你都应该明白它...
数据挖掘概述
常用数据挖掘工具 SAS，全称STATISTICAL ANALYSIS SYSTEM，统计分析系统； SPSS，全...
数据挖掘概述
数据挖掘是指在大量的数据中挖掘出信息，通过认真分析来揭示数据之间有意义的联系、趋势和模式。而数据挖掘技术就是指为了...
数据挖掘概述
数据挖掘又称数据库中的知识发现（Knowledge Discover in Database，KDD），是目前人工...
软件设计师考试 | 第八章算法设计与分析 | 数据挖掘算法
1. 数据挖掘概述数据挖掘利用机器学习方法对多种数据，包括数据库数据、数据仓库数据、Web数据等进行分析和挖掘。...
记-数据挖掘-数据挖掘概述认识
数据挖掘概述数据挖掘概念随着爆炸性的数据增长，我们拥有丰富大量的数据，但却不足以提供有用的信息。我们亟需一些工...
数据分析4-机器学习1-近邻算法KNN（K-NearestNei
1.算法概述邻近算法，或者说K最近邻(kNN，k-NearestNeighbor)分类算法是数据挖掘分类技术中最...
数据挖掘笔记--概述
更新记录 2017.11.21 思维导图第一版。正文数据挖掘是一个大坑，借着公司正好在做，一点点完善自己的学习...
干货 | 数据挖掘技术在风控领域的典型应用
数据挖掘的定义数据挖掘技术是统计技术、计算机技术和人工智能技术等构成的一种新学科。数据挖掘来源于统计分析，是统计...
大数据挖掘技术-->1.1 标准流程
最后欢迎光临小站：yuruotong.com 以下是文字提取部分，阅读完毕的同学可以离开了上回说到大数据挖掘的;标...

网友评论

本文标题：大数据挖掘技术-->1.0 概述

本文链接：https://www.haomeiwen.com/subject/eanuextx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

栏目导航

知识大搜罗

热点阅读

黑客

知识大搜罗

技术干货

关于我们|服务条款|联系我们|大数据挖掘技术-->1.0 概述|投稿指南|网站地图|RSS订阅|排版工具|手机版

提供经典美文摘抄,优美散文欣赏,现代诗歌精选,短篇小说,心情随笔,表白情书范文,故事会在线阅读欣赏

Copyright © 2014-2023 Haomeiwen.com All Rights Reserved. 好美文阅读网版权所有

备案信息：桂公网安备 45052102000051号 · 桂ICP备13007215号-3

本站所收录作品、热点评论等信息部分来源互联网，目的只是为了系统归纳学习和传递资讯

所有作品版权归原创作者所有，与本站立场无关，如不慎侵犯了你的权益，请联系我们告知，我们将做删除处理！