数据挖掘中的数据
属性的不同类别
- nominal:ID号码,眼睛的颜色,zip code
- ordinal: rankings,grades,height
- interval:日历上的日期,摄氏或华氏温度
- ratio:开尔文温度,长度,时间,计数counts
属性的类别取决于它支持一下哪些类别:
-
Distinctness: = ,neq
-
Order: < >
-
Addition: + -
-
Multiplication: * /
-
Nominal attribute: distinctness
-
Ordinal attribute: distinctness & order
-
Interval attribute: distinctness, order & addition
-
Ratio attribute: all 4 properties
image.png
离散和连续属性
离散的数据用的最多的方法是二进制矩阵方法。比如文本聚类,单词出现就是1,否则就是0. 数学方法处理二进制矩阵十分方便。但二进制方法又会损失一些信息,比如单词多次重复出现。
一些方法仅仅支持离散数据而并不支持连续数据。比如决策树方法,就无法很好地对连续数据进行处理。为了实现这样的连续型数据,可以简单的进行离散化。
非对称性属性
一个属性比另外一个属性更重要(比如1比0重要)。商场买东西的情况,买东西比没买东西更重要。
数据的表达方式
常用的是矩阵。网络数据可以被图模型所表示。空间数据(spatial data,mobile data)
网友评论