分类

作者: ___Hello | 来源:发表于2018-11-06 23:01 被阅读0次

    NB-----naive bayes贝叶斯

    需求:判断一篇文章属于哪个类型?{军事、科技、体育}
    建立模型:
    W = 文章 = {w1,w2,...,wn} wi=词
    Y=类型={y1,y2,y3} y1=军事、y2=科技、y3=体育
    需求:求w属于y1,y2,y3的概率?
    Pmax={P(y1|W),P(y2|W),P(y3|W)}
    贝叶斯
    P(yi|W) = P(W|yi)*P(yi) / P(W)
    P(yi|W) ≈ P(W|yi)
    已知军事,这篇文章的概率
    已知科技,这篇文章的概率
    已知体育,这篇文章的概率

    p(w) 最大似然估计即可
    有10篇文章,3篇体育,5篇科技,2篇军事

    p(W|yi)

    • 这篇文章军事的词 / 军事的词
    混淆矩阵

    confusion table

    预测1 预测2
    现实1 TP FN
    现实2 FP TN
    PR曲线

    y轴:Precision = TP / (TP+FP)
    x轴:Recall = TP / (TP+FN)

    准确率即猜1的里面是1的占比
    召回率即是1的里面猜1的占比

    ROC曲线

    y轴:真阳率 = TP / (TP+FN)
    x轴:假阳率 = FP / (FP+TN)
    真阳率即真里面预测了多少真
    假阳率即假里面预测了多少真

    AUC曲线
    • ROC曲线下的面积 y=f(x)
    • y < f(x) 意味着 小于

    相关文章

      网友评论

          本文标题:分类

          本文链接:https://www.haomeiwen.com/subject/zvmpxqtx.html