美文网首页
数据挖掘课后习题 第2章

数据挖掘课后习题 第2章

作者: 磊宝万岁 | 来源:发表于2019-04-16 11:27 被阅读0次
    2.2

    (a)均值:29.96 中位数:25
    (b)众数:25,35 数据的形态:因为有两个众数,所以是双峰(bimodal)的
    (c)中列数:(70+13)/2=41.5
    (d)Q1=20(数据集的第一个四分位数应发生在25%处,即在(N+1)/4=(27+1)/4=7 处。所以:Q1=20) Q3=35
    (e)五数概括:最小值=13,Q1=20,中位数=25,Q3=35,最大值=70
    (f)



    (g)
    分位数图:是一种观察单变量数据分布的简单有效方法。纵轴表示观测值,横轴表示近似的百分位数,通过将所有的观测值递增排序,可以展示所有的分位数信息。
    分位数-分位数图:两个坐标轴分别代表两个观测集的观测值,绘制的点的横纵坐标分 别对应两个观测集在相同分位点处的取值。若增加一条直线(y=x),落在该线以上的点表示在相同的分位点处,y 轴代表的数据观测值比x 轴高。反之,x轴代表的数据观测值比y轴高。通过分位数-分位数图可以很方便地观察从一个分布到另一个分布是否有“漂移”(相应的分位数是否相同)。

    2.3

    近似中位数:
    21+((200+450+300+1500+700+44)/2-(200+450+300))÷1500×(50-21)≈33.5

    2.4

    (a)age:均值=46.44 中位数:51 标准差:13.22
    %fat:均值=28.78 中位数:30.7 标准差:9.25
    (b)



    (c)散点图



    q-q图:
    2.5

    (a)标称属性。相异性可以通过不匹配率来计算:d(i,j)=(p-m)/p,i和j表示两个对象,m是i和j取值相同状态的属性数,p是刻画对象的属性总数;同时可以通过赋予m较大的权重,或者赋给有较多状态的属性的匹配更大的权重来增加m的影响。
    (b)非对称二元属性。可以通过Jaccard系数来计算相似性。
    (c)数值属性。可以通过闵可夫斯基距离(根据实际需求设置系数h的值,如h=1,闵可夫斯基距离计算的就是曼哈顿距离)来计算相异性。
    (d)词频向量:可以通过余弦相似性来计算相似性。

    2.6

    (a)欧几里得距离:\sqrt{45}
    (b)曼哈顿距离:11
    (c)q=3时的闵可夫斯基距离:\sqrt[3]{233}
    (d)上确界距离:42-36=6

    相关文章

      网友评论

          本文标题:数据挖掘课后习题 第2章

          本文链接:https://www.haomeiwen.com/subject/bggvwqtx.html