数挖——数据

作者: EvanForEver | 来源:发表于2018-04-15 20:42 被阅读66次

数挖——数据
数挖——探索数据
如何做数据测试？
数据挖
数据湖和数据仓库的建设，到底为了什么？由此产生的岗位区别在哪
数挖——基本分类
未明学院：全球24个时区国家在同一天的生活
否认年收入1.68亿，李子柒为什么这么火？
关键数据指标含义
数形结合，创意“切挖”

数据的构成：对象(object)及其属性(attribute)

属性是对象的性质或特性
属性也称作变量(variable)、字段(field)、特性(characteristic)或特征(feature)
对象是一组属性描述
对象也称作记录(record)、元组(tuple)、点(point)、事例(case)、样本(sample)、实体(entity)或实例(instance)
属性值是赋给属性的一个数字或符号

第一种属性类型的划分——根据属性对应数值的性质

分类属性/定性属性
 标称（Nominal）：仅仅只是不同名字，只提供足够信息区分对象
例子：证件号、肤色、邮政编码
操作：众数，熵，列联相关，卡方检验
 序数（Ordinal）：提供足够信息确定对象的序
例子：等级{高,中,低}、成绩{A,B,C,D}、身高 {高,中,矮}
操作：中值，百分位，轶相关，游程检验，符号检验
数值属性/定量属性
 区间（Interval）：区间属性的值之间的差是有意义的，即存在测量单位
例子：日历日期、摄氏或华氏温度
操作：均值，标准差，皮尔斯系数，t和F检验
 比率（Ratio）：差和比率都是有意义的
例子：绝对温度、长度、计数
操作：几何平均，调和平均，百分比变差

每种属性类型拥有其上方属性类型所有性质和操作，属性类型的定义是累加的。

第二种属性类型的划分——根据属性对应值的个数

离散属性
在有限符号集合或在无限可数集合中取值，无限可数集合包括自然数集和有理数集
例子：邮政编码（分类属性）、计数（数值属性）
典型的子类：二元属性－值域是二值集合的属性，如{0,1}和{false,true}
连续属性
是取实数值的属性
实践中实数值只能用有限的精度来测量和表示
例子：温度、身高、体重

数据集可以看作数据对象的集合，数据对象可以看作多维空间中的点，也称作数据点，其中每个维度代表对象的一个不同属性

数据集的类型

记录数据
定义：包含一系列记录的数据集，每个记录由一个固定的属性集合构成
 数据矩阵：如果数据对象的所有属性都取数值，则该记录数据集是一个数据矩阵
 文档数据:每个文档是一个词向量,每个词是词向量中的一个分量（即属性）,每个分量的值是对应词在文档中出现的次数。文档数据是典型的稀疏数据矩阵
 事务数据：一种特殊类型的记录数据，一个记录代表一个事务，一个事务是项的集合(不同事务中项的个数可以不同)，例子：顾客一次购物所购买的商品的集合就构成一个事务，而购买的商品是项

数据矩阵

文档数据

事务数据

基于图的数据
 带有对象之间联系的数据
例子：带超链接的网页（图是隐性的）
 具有图形对象的数据
例子：笨的分子结构C6H6（图是显性的）

有序数据
 时序数据
 序列数据
例子：基因序列数据，一个符号看作一个记录
 空间数据
例子：全球温度数据

数据预处理

聚集（Aggregation）
聚集是指将两个或多个对象合并成单个对象
 减少数据：减少属性或数据对象的个数；节省数据挖掘算法的运行时间和空间
 尺度提升：城市聚集成区域、省、国家，等等；产生新的模式
 更“稳定”的数据：聚集的数据会有较小的变异性；突出数据的趋势和轨迹
抽样（Sampling）
抽样是指选择数据对象子集，抽取的对象称作样本
 抽样可以降低数据处理的费用和时间
 只有有代表性的抽样样本才是有效的，一般具有与原数据集类似的性质（比如均值），使用有代表性的样本与使用整个数据集的效果几乎一样
 抽样方法：随机抽样（有放回和无放回），分层抽样
维归约（Dimensionality Reduction）
维归约是指降低数据的维度，即减少数据属性的个数
 避免维灾难 (curse of dimensionality)
 降低数据挖掘算法的时间和内存需求
 使数据更容易可视化
 可以删除不相关的属性并降低噪声
 常用方法：主成份分析(PCA)
目标是找出新的属性（主成分），与原属性的线性组合，相互正交，捕获数据的最大变差。

随着维度增加，数据在它所占的空间中越来越稀疏。对于分类：没有足够的数据对象来创建模型；对于聚类和异常检测：点之间的密度和距离的定义变得不太有意义

特征子集选择（Feature subset selection）
特征子集选择是指选择一部分属性实施数据挖掘任务，目的是消除冗余特征和不相关特征
特征选择的常见方式和方法
 嵌入方式：特征选择作为数据挖掘算法的一部分自然地出现（如构造决策树的算法）
 过滤方式：在数据挖掘算法运行前进行特征选择
 穷举方法：尝试所有可能的特征子集，然后选取产生最好结果的子集
 前向/后向选择方法
前：从空集开始逐步添加特征，选取产生最好结果的子集
后：从全集开始逐步删除特征，选取产生最好结果的子集
特征创建（Feature creation）
特征创建是指由原来的属性创建新的属性集，可以更有效地捕获数据集中的重要信息，消除噪声的影响，同时新属性个数比原来的属性个数少，达到降维的效果
三种创建新属性的方法
 特征提取：依赖于特定领域，比如人脸识别
 映射数据到新空间：如傅立叶变换(Fourier transform)
 特征构造：如密度=质量/体积
离散化（Discretization）和二元化（Binarization）
离散化是指将连续属性转变成离散属性。使数据能运用于不能处理连续属性的数据挖掘算法，同时降低离群点/异常点的影响
二元化是离散化的一种特例，将连续属性转变成二元属性
离散化的常用方法
 监督（supervised）方法 ——使用类标
基于熵（entropy）的方法：找产生最小总熵的分界点，总熵是分区熵的加权平均
熵（信息）：数值区间内类分布的均匀程度；类分布越均匀，熵越高
 非监督（unsupervised）方法——不使用类标
属性变换
变量变换是指变换变量的所有取值
 简单函数: xⁿ, log(x), |x|
 标准化或规范化
例子：将一个变量标准化成一个具有均值0和标准差1的新变量: x’=(x-mean(x))/std(x)
 目的：将数据转换成特定分布（如正态分布）的数据；压缩数据；相似度/相异度计算时统一属性的尺度

相似度和相异度

相似度（similarity）：两个对象相似程度的数值度量
对象越相似，相似度越高
通常在区间[0,1]中取值
相异度（dissimilarity）：两个对象差异程度的数值度量
对象越相似，相异度越低
有时在区间[0,1]中，有时在[0,+∞]中取值（如用距离表示相异度）
邻近度（proximity）指相似度或相异度

属性值之间的相似度/相异度

举例：序数属性相异度的例子：{低,中,高} = {0,1,2}，则d(低,高)=2/2=1，
d(低,中)＝ d(中,高)＝1/2=0.5

数据对象之间的相异度

欧几里德（Euclidean）距离：

其中n 是属性个数， pk和qk分别是数据对象p和q的第k个属性的取值
注意：属性的尺度不同时，需要标准化，变量标准化 x’=(x-mean(x))/std(x)

欧几里德距离的拓广—— 闵可夫斯基（Minkowski）距离

其中r是参数，n 是属性个数， pk和qk分别是数据对象p和q的第k个属性的取值

r = 1. 城市块距离（曼哈顿距离/L1范数距离）
一个常见的特例是汉明（Hamming）距离，它是两个具有二元属性的对象之间不同的二进位个数
r = 2. 欧几里德距离（L2范数距离）
r → ∞. 上确界距离（切比雪夫距离/L∞范数距离）
等于属性之间的最大距离

数据对象之间的相似度

相似度具有如下典型性质
 全等最相似：对于所有的点p和q，仅当p = q时s(p, q) = 1
 对称性：对于所有的点p和q，s(p, q) = s(q, p)

简单匹配系数和Jaccard系数
数据对象p和q仅包含二元属性，p和q也称作二元向量
 p和q的相似度的计算一般使用下面四个量：
M01 = 在p中取0但在其q中取1的属性个数
M10 = 在p中取1但在其q中取0的属性个数
M00 = 在p中取0但在其q中取0的属性个数
M11 = 在p中取1但在其q中取1的属性个数
 简单匹配系数（Simple Matching Coefficient, SMC）和Jaccard系数
SMC = 值匹配的属性个数 / 属性个数 = (M11 + M00) / (M01 + M10 + M11 + M00)
J = 1-1匹配的属性个数 / 不涉及0-0匹配的属性个数 = (M11) / (M01 + M10 + M11)

SMC系数 vs Jaccard系数
p = 1 0 0 0 0 0 0 0 0 0
q = 0 0 0 0 0 0 1 0 0 1
则
M01 = 2 (在p中取0但在其q中取1的属性个数)
M10 = 1 (在p中取1但在其q中取0的属性个数)
M00 = 7 (在p中取0但在其q中取0的属性个数)
M11 = 0 (在p中取1但在其q中取1的属性个数)
求
SMC = (M11 + M00 )/(M01 + M10 + M11 + M00) = (0+7) / (2+1+0+7) = 0.7
J = (M11) / (M01 + M10 + M11) = 0 / (2 + 1 + 0) = 0

余弦相似度
 如果d1和d2 是两个文档向量，则 cos( d1, d2 ) = (d1 ● d2) / ||d1|| ||d2|| ,
其中 ● 表示向量点积（即各个对应分量的乘积和），|| d ||表示向量d的长度，即
|| d || = (d ● d)^0.5
 例子:
d1 = 3 2 0 5 0 0 0 2 0 0
d2 = 1 0 0 0 0 0 0 1 0 2
d1 ● d2= 3*1 + 2*0 + 0*0 + 5*0 + 0*0 + 0*0 + 0*0 + 2*1 + 0*0 + 0*2 = 5
||d1||=(3*3+2*2+0*0+5*5+0*0+0*0+0*0+2*2+0*0+0*0)^0.5 =(42)^0.5 = 6.481
||d2||= (1*1+0*0+0*0+0*0+0*0+0*0+0*0+1*1+0*0+2*2)^0.5 =(6)^0.5 = 2.245
cos( d1, d2 ) =5/(6.481*2.245)= 0.3150
 应用场合：文档聚类、信息检索
实际应用中，一般使用TF-IDF文档向量，调用余弦相似度计算两个文档之间的相似程度
每个分量的权重代表对应词的重要程度
在长文档中出现的词相对不重要；在大量文档中的词是不重要的
怎样考虑权重？以加权词频替代词的出现次数（TF-IDF方法）计算第i个词（分量）在第j个文档中的出现的加权词频 = 词频(TF)*反文档频率(IDF)
皮尔森相关系数
一般用于度量数据对象属性之间的线性联系
皮尔森相关（Pearson’s correlation）系数的计算

正相关：0<corr(p,q)≤1
负相关：-1≤corr(p,q)<0
不相关：corr(p,q)=0

数挖——数据
数据的构成：对象(object)及其属性(attribute) 属性是对象的性质或特性属性也称作变量(variab...
数挖——探索数据
数据探索有助于选择合适的数据预处理和数据分析技术。一、汇总统计汇总统计是刻画数据特征的数值，汇总的特征包括频率...
如何做数据测试？
-- 转自挖数网自己备份用这个网貌似挂掉了数据质量是数据应用的核心基础，数据测试是非常重要的一环，若质量把控...
数据挖
心心念念的数据挖来了，蛙数据之前一直恐惧代码，但是说来好笑，我是计算机专业，半道出家。。。其实仔细想想，SQL又...
数据湖和数据仓库的建设，到底为了什么？由此产生的岗位区别在哪
数据湖这个大坑，是怎么挖的？数据在刚刚开始的时候，还是小体量，就好比创业公司，还不足够引起人们的注意。但是当数...
数挖——基本分类
构造决策树有多种算法：1、Hunt算法 (决策树归纳算法框架)2、CART3、ID3, C4.5 (重点)4、SL...
未明学院：全球24个时区国家在同一天的生活
文章转载自公众号挖数，作者挖数我家里有很多个地球仪，晚上发呆时喜欢随手转转，看不同国家的地理分布，顺便给自己定一...
否认年收入1.68亿，李子柒为什么这么火？
近日，自媒体“挖数”发布的《李子柒一年能赚多少钱，数据量化给你看》引发热议。该自媒体在文中表示，计算了李子柒的油管...
关键数据指标含义
关键数据指标含义数据查看各指标含义展现数据 1、展示数：广告展示数 2、点击数：广告点击数 3、点击率：点击数...
数形结合，创意“切挖”
日子总是在我们指缝中离开，悄无声息。今日我们迎来了夏加儿美术的第八节课——《基本形体切挖》。这课程特别的有...