美文网首页
data mining 1

data mining 1

作者: SeanC52111 | 来源:发表于2019-05-21 23:38 被阅读0次

    数据挖掘中的数据

    属性的不同类别

    • nominal:ID号码,眼睛的颜色,zip code
    • ordinal: rankings,grades,height
    • interval:日历上的日期,摄氏或华氏温度
    • ratio:开尔文温度,长度,时间,计数counts

    属性的类别取决于它支持一下哪些类别:

    • Distinctness: = ,neq

    • Order: < >

    • Addition: + -

    • Multiplication: * /

    • Nominal attribute: distinctness

    • Ordinal attribute: distinctness & order

    • Interval attribute: distinctness, order & addition

    • Ratio attribute: all 4 properties

    image.png
    image.png

    离散和连续属性

    离散的数据用的最多的方法是二进制矩阵方法。比如文本聚类,单词出现就是1,否则就是0. 数学方法处理二进制矩阵十分方便。但二进制方法又会损失一些信息,比如单词多次重复出现。
    一些方法仅仅支持离散数据而并不支持连续数据。比如决策树方法,就无法很好地对连续数据进行处理。为了实现这样的连续型数据,可以简单的进行离散化。

    非对称性属性
    一个属性比另外一个属性更重要(比如1比0重要)。商场买东西的情况,买东西比没买东西更重要。

    数据的表达方式
    常用的是矩阵。网络数据可以被图模型所表示。空间数据(spatial data,mobile data)

    相关文章

      网友评论

          本文标题:data mining 1

          本文链接:https://www.haomeiwen.com/subject/nezduqtx.html