1.classification的核心思想
计算feature在不同class中的概率利用条件概率实现分类,只考虑样本只有两种feature的二分类问题,两种feature在每种class中都会存在但是概率不同,在这个前提下,在训练数据中估算下图红色方框中的概率。
其中P(C1)和P(C2)可以根据训练集中类别的个数来估算(只是估算,并不是准确的值),算一下训练数据里两类各占多少即可;
我们假设训练数据中所有的第一类/第二类的数据样本,都是符合相应的高斯分布函数的。
L(μ,∑)最大即是最大拟然法,L(μ,∑)是某一类feature的高斯分布概率的累乘,最理想的情况是最大值为1理论上任何参数(μ,∑)的高斯分布都可以产生训练数据,只是likelihood不同。
用最大似然(maximun likehood)的方法可以得出,使得似然函数最大的参数(μ∗,∑∗)分别是训练数据中该类数据的平均值μ*和协方差矩阵∑*。
每个样本有n特征,均值就是n维的,方差是n*n维的。
网友评论