数据挖掘课后习题第2章

作者: 磊宝万岁 | 来源:发表于2019-04-16 11:27 被阅读0次

数据挖掘课后习题第5章
数据挖掘课后习题第8章
数据挖掘课后习题第10章
数据挖掘课后习题第7章
数据挖掘课后习题第6章
数据挖掘课后习题第2章
数据挖掘课后习题第4章
数据挖掘课后习题第3章
2019-05-20
量子学派：GDP的真相

2.2

（a）均值：29.96 中位数：25
（b）众数：25,35 数据的形态：因为有两个众数，所以是双峰（bimodal）的
（c）中列数：（70+13）/2=41.5
（d）Q1=20（数据集的第一个四分位数应发生在25%处，即在(N+1)/4=（27+1）/4=7 处。所以：Q1=20） Q3=35
（e）五数概括：最小值=13，Q1=20，中位数=25，Q3=35，最大值=70
（f）

（g）
分位数图：是一种观察单变量数据分布的简单有效方法。纵轴表示观测值，横轴表示近似的百分位数，通过将所有的观测值递增排序，可以展示所有的分位数信息。
分位数-分位数图：两个坐标轴分别代表两个观测集的观测值，绘制的点的横纵坐标分别对应两个观测集在相同分位点处的取值。若增加一条直线（y=x），落在该线以上的点表示在相同的分位点处，y 轴代表的数据观测值比x 轴高。反之，x轴代表的数据观测值比y轴高。通过分位数-分位数图可以很方便地观察从一个分布到另一个分布是否有“漂移”（相应的分位数是否相同）。

2.3

近似中位数：
21+（（200+450+300+1500+700+44）/2-(200+450+300)）÷1500×（50-21）≈33.5

2.4

（a）age:均值=46.44 中位数：51 标准差：13.22
%fat:均值=28.78 中位数：30.7 标准差：9.25
（b）

（c）散点图

q-q图：

2.5

（a）标称属性。相异性可以通过不匹配率来计算：d(i,j)=(p-m)/p，i和j表示两个对象，m是i和j取值相同状态的属性数，p是刻画对象的属性总数；同时可以通过赋予m较大的权重，或者赋给有较多状态的属性的匹配更大的权重来增加m的影响。
（b）非对称二元属性。可以通过Jaccard系数来计算相似性。
（c）数值属性。可以通过闵可夫斯基距离（根据实际需求设置系数h的值，如h=1，闵可夫斯基距离计算的就是曼哈顿距离）来计算相异性。
（d）词频向量：可以通过余弦相似性来计算相似性。

2.6

（a）欧几里得距离： $\sqrt{45}$
（b）曼哈顿距离：11
（c）q=3时的闵可夫斯基距离： $\sqrt[3]{233}$
（d）上确界距离：42-36=6

网友评论

本文标题：数据挖掘课后习题第2章

本文链接：https://www.haomeiwen.com/subject/bggvwqtx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

数据挖掘课后习题第2章

2.2

2.3

2.4

2.5

2.6

相关文章

数据挖掘课后习题第5章

数据挖掘课后习题第8章

数据挖掘课后习题第10章

数据挖掘课后习题第7章

数据挖掘课后习题第6章