数据

作者: 从此不迷茫 | 来源:发表于2020-02-14 13:59 被阅读0次
1.数据类型:

数据集数据对象的集合。

数据对象有时叫做记录、点、向量、模式、事件、案例、样本、观测或实体。

数据对象属性描述。

属性有时叫做变量、特性、字段、特征或维。


1.1属性和度量

测量标度:将数值或符号值与对象的属性相关联的规则(函数)

形式上,测量过程是使用测量标度将一个值与一个特定对象的特定属性相关联。

通常,将属性的类型称作测量标度的类型

定义四种属性类型:标称(nominal)(=,≠)、序数(ordinal)(<,>)、区间(interval)(+,-)、比率(ratio)(*,/)。


1.2数据集的类型

1.数据集:纬度(维灾难,维归约)、稀疏性、分辨率
2.记录数据
事务数据或购物篮数据:是一种特殊类型的记录数据,其中每个记录(事务)涉及一系列的项。
数据矩阵
稀疏数据矩阵
3.基于图形的数据:带有对象之间联系的数据、具有图形对象的数据
4.有序数据:时序数据(sequential data)或时间数据(temporal data)、序列数据(sequence data)、时间序列数据(time series data)、空间数据
5.处理非记录数据

2.数据质量

2.1测量和数据收集问题

1.测量误差和数据收集错误

2.噪声和伪像

3.精度、偏倚、准确率

4.离群点(异常对象,异常值)

5.遗漏值

6.不一致的值

7.重复数据


2.2应用问题

时效性、相关性


3.数据预处理

3.1聚集

3.2抽样

抽样方法:简单随机抽样(无放回抽样,有放回抽样)、分层抽样

渐进抽样

3.3维归约

维灾难

维归约线性代数技术:主成分分析(PCA)、奇异值分解(SVD)

3.4特征子集选择

嵌入方法

过滤方法

包装方法

3.5特征创建(三种)

特征提取

映射数据到新的空间(傅里叶分析)

特征构造

3.6离散化和二元化

1.二元化:

2.连续属性离散化(是否使用类信息(supervised or unsupercised))

非监督离散化:等宽,等深

监督离散化:基于熵(entropy)的离散化方法

3.7变量变换

简单函数

规范化或标准化


4.相似性和相异性的度量

相似度(0~1)、相异度或距离(0~∞)

变换:把相似度转换成相异度或相反,或者把邻近度转换到一个特定区间,如[0,1]


4.3数据对象之间的相异度

距离:欧几里得距离、闵可夫斯基距离

性质:1.非负性2.对称性3.三角不等式

4.4数据对象之间的相似度

性质:当且仅当x=y时,s(x,y)=1(0≤s≤1)

对于所有x,y,s(x,y)=s(y,x)

4.5邻近性度量的例子

1.二元数据的相似性度量

2.余弦相似度

4.6邻近度计算问题

1.距离度量的标准化和相关性

2.组合异种属性的相似度

3.使用权值

相关文章

  • 数据,数据

    谁的数据? 是个手机应用就想读取位置信息、通讯录,是个网站就想记录用户的浏览行为,他们保存了很多的数据。可是,这些...

  • 数据数据

    帖子来自:大数据社区|大数据学习交流社区|大数据免费学习资源_大数据巴士 头像 柠檬学院大数据 LV1 2016-...

  • 数据数据

    似懂非懂的好像又悟出来一个道理,居然对重来不愿意进脑袋的“数据”一词有了一面之交的熟悉呢。 自小到大就爱说些别人不...

  • Python Pandas Dataframe 的基本操作

    数据洞察 数据清洗 数据预处理 数据获取 数据筛选 6.数据汇总 数据输出

  • 《Python数据分析与挖掘实战》第四章 数据预处理

    主要包括数据清洗、数据集成、数据变幻和数据规约。 数据清洗 删除原始数据集中的无关数据、重复数据,平滑噪声数据,筛...

  • 基础定义

    一、数据结构 1.1 定义 数据项——>数据元素——>数据对象——>数据 数据对象+结构——>数据结构 数据结构包...

  • pandas手册

    导入数据 导出数据 查看、检查数据 数据选取 数据清理 数据处理:Filter、Sort和GroupBy 数据合并...

  • 2019-07-25

    数据管理 元数据是关于数据的数据 元数据打通了源数据、数据仓库、数据应用,记录了数据从产生到消费的全过程。 元数据...

  • 日志定位

    前后端 前端: 收集数据、数据校验、数据处理、数据解析、数据展现 后端: 数据解析、数据校验、数据处理 日志定位 ...

  • reshape2数据汇总

    dcast:长数据变短数据,数据变形,汇总 长数据 由1式,得到短数据: melt:短数据变长数据 短数据: 由式...

网友评论

    本文标题:数据

    本文链接:https://www.haomeiwen.com/subject/aqidfhtx.html