1.数据类型:
数据集是数据对象的集合。
数据对象有时叫做记录、点、向量、模式、事件、案例、样本、观测或实体。
数据对象用属性描述。
属性有时叫做变量、特性、字段、特征或维。
1.1属性和度量
测量标度:将数值或符号值与对象的属性相关联的规则(函数)
形式上,测量过程是使用测量标度将一个值与一个特定对象的特定属性相关联。
通常,将属性的类型称作测量标度的类型。
定义四种属性类型:标称(nominal)(=,≠)、序数(ordinal)(<,>)、区间(interval)(+,-)、比率(ratio)(*,/)。
1.2数据集的类型
1.数据集:纬度(维灾难,维归约)、稀疏性、分辨率
2.记录数据
事务数据或购物篮数据:是一种特殊类型的记录数据,其中每个记录(事务)涉及一系列的项。
数据矩阵
稀疏数据矩阵
3.基于图形的数据:带有对象之间联系的数据、具有图形对象的数据
4.有序数据:时序数据(sequential data)或时间数据(temporal data)、序列数据(sequence data)、时间序列数据(time series data)、空间数据
5.处理非记录数据
2.数据质量
2.1测量和数据收集问题
1.测量误差和数据收集错误
2.噪声和伪像
3.精度、偏倚、准确率
4.离群点(异常对象,异常值)
5.遗漏值
6.不一致的值
7.重复数据
2.2应用问题
时效性、相关性
3.数据预处理
3.1聚集
3.2抽样
抽样方法:简单随机抽样(无放回抽样,有放回抽样)、分层抽样
渐进抽样
3.3维归约
维灾难
维归约线性代数技术:主成分分析(PCA)、奇异值分解(SVD)
3.4特征子集选择
嵌入方法
过滤方法
包装方法
3.5特征创建(三种)
特征提取
映射数据到新的空间(傅里叶分析)
特征构造
3.6离散化和二元化
1.二元化:
2.连续属性离散化(是否使用类信息(supervised or unsupercised))
非监督离散化:等宽,等深
监督离散化:基于熵(entropy)的离散化方法
3.7变量变换
简单函数
规范化或标准化
4.相似性和相异性的度量
相似度(0~1)、相异度或距离(0~∞)
变换:把相似度转换成相异度或相反,或者把邻近度转换到一个特定区间,如[0,1]
4.3数据对象之间的相异度
距离:欧几里得距离、闵可夫斯基距离
性质:1.非负性2.对称性3.三角不等式
4.4数据对象之间的相似度
性质:当且仅当x=y时,s(x,y)=1(0≤s≤1)
对于所有x,y,s(x,y)=s(y,x)
4.5邻近性度量的例子
1.二元数据的相似性度量
2.余弦相似度
4.6邻近度计算问题
1.距离度量的标准化和相关性
2.组合异种属性的相似度
3.使用权值
网友评论