昨天收到了周老师的西瓜书,读了一晚,感觉还是非常容易理解的。不过读到第1.3节的时候突然卡住了:讲到“假设空间”,存在着一个与训练集一致的“假设集合”,称之为“版本空间”,但是这个假设空间怎么得出来的?
首先,在网上对假设空间和版本空间的解释如下:
假设空间:属性所有可能取值组成的可能的样本
版本空间:与已知数据集一致的所有假设的子集集合。
那么,对于书中的西瓜数据集:
image.png
假设空间的组成为:(这个直接网上复制过来的(^ _ ^))
1 色泽=*,根蒂=*,敲声=*
2 色泽=青绿,根蒂=*,敲声=*
3 色泽=乌黑,根蒂=*,敲声=*
4 色泽=*,根蒂=蜷缩,敲声=*
5 色泽=*,根蒂=硬挺,敲声=*
6 色泽=*,根蒂=稍蜷,敲声=*
7 色泽=*,根蒂=*,敲声=浊响
8 色泽=*,根蒂=*,敲声=清脆
9 色泽=*,根蒂=*,敲声=沉闷
10 色泽=青绿,根蒂=蜷缩,敲声=*
11 色泽=青绿,根蒂=硬挺,敲声=*
12 色泽=青绿,根蒂=稍蜷,敲声=*
13 色泽=乌黑,根蒂=蜷缩,敲声=*
14 色泽=乌黑,根蒂=硬挺,敲声=*
15 色泽=乌黑,根蒂=稍蜷,敲声=*
16 色泽=青绿,根蒂=*,敲声=浊响
17 色泽=青绿,根蒂=*,敲声=清脆
18 色泽=青绿,根蒂=*,敲声=沉闷
19 色泽=乌黑,根蒂=*,敲声=浊响
20 色泽=乌黑,根蒂=*,敲声=清脆
21 色泽=乌黑,根蒂=*,敲声=沉闷
22 色泽=*,根蒂=蜷缩,敲声=浊响
23 色泽=*,根蒂=蜷缩,敲声=清脆
24 色泽=*,根蒂=蜷缩,敲声=沉闷
25 色泽=*,根蒂=硬挺,敲声=浊响
26 色泽=*,根蒂=硬挺,敲声=清脆
27 色泽=*,根蒂=硬挺,敲声=沉闷
28 色泽=*,根蒂=稍蜷,敲声=浊响
29 色泽=*,根蒂=稍蜷,敲声=清脆
30 色泽=*,根蒂=稍蜷,敲声=沉闷
31 色泽=青绿,根蒂=蜷缩,敲声=浊响
32 色泽=青绿,根蒂=蜷缩,敲声=清脆
33 色泽=青绿,根蒂=蜷缩,敲声=沉闷
34 色泽=青绿,根蒂=硬挺,敲声=浊响
35 色泽=青绿,根蒂=硬挺,敲声=清脆
36 色泽=青绿,根蒂=硬挺,敲声=沉闷
37 色泽=青绿,根蒂=稍蜷,敲声=浊响
38 色泽=青绿,根蒂=稍蜷,敲声=清脆
39 色泽=青绿,根蒂=稍蜷,敲声=沉闷
40 色泽=乌黑,根蒂=蜷缩,敲声=浊响
41 色泽=乌黑,根蒂=蜷缩,敲声=清脆
42 色泽=乌黑,根蒂=蜷缩,敲声=沉闷
43 色泽=乌黑,根蒂=硬挺,敲声=浊响
44 色泽=乌黑,根蒂=硬挺,敲声=清脆
45 色泽=乌黑,根蒂=硬挺,敲声=沉闷
46 色泽=乌黑,根蒂=稍蜷,敲声=浊响
47 色泽=乌黑,根蒂=稍蜷,敲声=清脆
48 色泽=乌黑,根蒂=稍蜷,敲声=沉闷
49 Ø
版本空间是如何产生的呢?
根据已经给出的4组数据,与假设空间每组数据分别对比
- 若与正样本(判断是好瓜的)不一致,删除此组假设空间数据;
- 若与负样本(判断是坏瓜的)一致,删除词组假设空间数据。
据此,我们可以得出以下判断:
- 通过 【((色泽=青绿、根蒂=蜷缩、敲声=浊响),好瓜)】,
可删除假设空间的3,5,6,8,9,11-15,17-21,23-30,32-49- 通过【((色泽=乌黑、根蒂=蜷缩、敲声=浊响),好瓜)】,
可继续删除假设空间的2,10,16,31- 通过【((色泽=青绿、根蒂=硬挺、敲声=清脆),坏瓜)】,
可继续删除假设空间的1- 通过【((色泽=乌黑、根蒂=稍蜷、敲声=沉闷),坏瓜)】,
已无可删除数据
剩余的假设:
4 色泽= *,根蒂=蜷缩,敲声= *
7 色泽= *,根蒂= *,敲声=浊响
22 色泽= *,根蒂=蜷缩,敲声=浊响
此结果即书中的版本空间。
image.png
网友评论