美文网首页
数据探索-汇总统计,可视化,联机分析处理(OLAP)

数据探索-汇总统计,可视化,联机分析处理(OLAP)

作者: 从此不迷茫 | 来源:发表于2020-02-20 10:21 被阅读0次

汇总统计-值集合的均值和标准差等

可视化-直方图和散布图等
OLAP-分析功能集中在从多维数据数组中创建汇总表的各种方法。包括在不同维上或不同属性值上聚集数据,如给定基于产品、位置和日期记录的销售信息,则可以使用OLAP技术创建按月和按产品类别描述特定地点的销售活动汇总。

百分位数(percentile)

针对有序数据,考虑值集的百分位数更有意义。具体的说,给定一个有序的或连续的属性x和0与100之间的数p,第p个百分位数Xp是一个X值,使得X的p%观测值小于Xp。

从1到10的整数百分位数X0%,X10%,...,X90%,X100%依次为1.0,1.5,2.5,3.5,4.5,5.5,6.5,7.5,8.5,9.5,10.0。按照惯例,min(x)=X0%,而max(x)=X100%。

位置度量:均值和中位数

对于连续数据,最广泛使用的是均值和中位数,他们是值集位置的度量。

为了克服传统均值定义的问题,又是使用截断均值的概念。指定0和100之间的百分位数p,丢弃高端和低端(p/2)%的数据,然后用常规方法计算均值,所得的结果即是截断均值,而标准均值是对应于p=0%的截断均值。

散布度量:极差和方差

绝对平均偏差(AAD)、中位数绝对偏差(MAD)、四分位数极差(IQR)

对于多元数据,每个属性的散布可以独立于其他属性。对于具有连续变量的数据,数据的散布更多的用协方差矩阵(covariance matrix)S表示,其中,S的第ij个元素sij是数据的第i个和第j个属性的协方差。这样,如果xi和xj分别是i个和第j个属性,则

sij=covariance(xi,xj)

xki和xkj分别是第k个对象的第i个和第j个属性的值。

可视化

快速吸取大量可视化信息,并发现其中模式。

一般概念:

1.表示:将数据映射到图形元素

2.安排:项。正确选择对象和属性的可视化表示是基本的要求。

3.选择:删除或不突出某些对象和属性。

技术:

1.少量属性的可视化:

茎叶图

直方图:相对频率直方图、Pareto直方图、二维直方图

盒状图

饼图

百分位数图和经验累计分布函数(ECDF)

散布图、散布图矩阵

可视化事件空间数据:

等高线图

曲面图

矢量场图

低维切片

动画

可视化高维数据:

矩阵

平行坐标系

星形坐标和Chernoff脸

OLAP和多维数据分析

分析多维数据:

数据立方体:计算聚集量

维归约和转轴

切片和切块

上卷和下钻

相关文章

  • 第三章 数据探索

    [TOC] 探索数据 内容:汇总统计、可视化和联机分析处理(OLAP) 作用:数据初步探究,利于选择合适的数据预处...

  • 为什么需要OLAP DSL?

    OLAP(On-Line Analytical Processing,联机分析处理)是大数据场景中,数据价值探索与...

  • 数据探索-汇总统计,可视化,联机分析处理(OLAP)

    汇总统计-值集合的均值和标准差等可视化-直方图和散布图等OLAP-分析功能集中在从多维数据数组中创建汇总表的各种方...

  • OLTP与OLAP

    介绍: 在大型企业的数据库系统中,联机事务处理(OLTP)与联机分析处理(OLAP)是常见的数据管理与分析形式。 ...

  • 二、ClickHouse概念了解

    ClickHouse是一个用于联机分析(OLAP)的列式数据库管理系统(DBMS)。1. 什么是OLAP?数据处理...

  • 数据仓库 - 3.数据仓库基本概念

    一、数据仓库的概念 - 元数据 二、数据仓库的概念 - 联机处理分析(OLAP) 简写为OLAP,随着数据库技术的...

  • OLAP入门概览

    联机分析处理 (OLAP)是一种用于组织大型企业数据库和支持商业智能的技术。通过OLAP,我们可以更好的分析数据,...

  • 数挖——探索数据

    数据探索有助于选择合适的数据预处理和数据分析技术。 一、汇总统计 汇总统计是刻画数据特征的数值,汇总的特征包括频率...

  • 疑问之什么是OLAP数据库

    联机分析处理OLAP(On-Line Analytical Processing)、联机事务处理OLTP(On-l...

  • 大数据OLAP系统(1)——概念篇

    1.1 什么是OLAP? OLAP(OnLine Analytical Processing),即联机分析处理。O...

网友评论

      本文标题:数据探索-汇总统计,可视化,联机分析处理(OLAP)

      本文链接:https://www.haomeiwen.com/subject/dmitqhtx.html