1.假设:现在宝可梦的分类是二分类的情况,选取了两个类别:water、Normal。每个样本有两个特征:SP、Defense。 要预测x属于哪类,若P(C1|x)>0.5则属于water,否则属于normal。

2.建模:计算P(C1|x)要用到贝叶斯公式,对Generative Model:

从training data中计算P(C1)、P(C2)、P(x|C1)、P(x|C2)这四个值。
P(C1)、P(C2)容易估计,算一下训练数据里两类各占多少就可以了,要计算P(x|C1)、P(x|C2)就需要做一些假设。
我们假设训练数据中所有的第一类/第二类数据,都是分别从两类对应的高斯分布产生的,理论上任何参数(μ,∑)的高斯分布都可以产生训练数据,只是likelihood不同,所以我们需要构造一个高斯分布,使得likehood(拟然)最大,likehood定义为高斯分布概率的累乘。
3.选择模型:假设P(x|C1)和P(x|C2)分别服从不同均值不同方差的高斯分布,利用样本,可根据极大似然估计的原理来估计均值和方差。


估计完均值和方差之后,就可以把高斯分布代入原来的贝叶斯公式了。

但效果似乎不太好,只有47%的正确率,甚至不到50%,把特征数增加到7个效果依旧不佳,只有54%的正确率。

网友评论