美文网首页Machine Learning
【ML】入门系列 之 不得不知的概念

【ML】入门系列 之 不得不知的概念

作者: 火禾子_ | 来源:发表于2018-12-07 18:06 被阅读0次
    1、概率 & 似然

    概率是在知道参数的情况下,预测接下来可能出现的结果。
    似然是在已知观测结果时,对有关事物的性质的参数进行估计。

    2、泛化能力

    即模型举一反三的能力,如果对训练集很友好,而对测试集不友好,则说明泛化能力差,过拟合。

    3、归纳偏好

    举个栗子,就用大佬爱吃的西瓜为例。我们现在要去买西瓜,而判断买不买的标准(特征/属性)有三个,颜色/瓜藤弯曲程度/响声(其实我忘记西瓜书常用的特征是什么了,就以这三个为例吧,hhh)
    如果我们从别人那寻得的经验不够多,只总结出来了一下三条(*表示不关心此特征):

    • 深绿,瓜藤弯曲,*   =>瓜甜,买了
    • 浅绿,瓜藤直直,*   =>不甜,没钱
    • *, *, 响声闷     =>瓜甜,买了

    那么现在来了个浅绿&瓜藤直直&响声闷的瓜,根据以上三条经验,我是买还是不买呢?毕竟口袋空空,万一买了个不甜的瓜,可就亏大发了。
    所以,这时,要么把这三个特征排列组合的经验都收集了。要么设置个偏好,比如我对三个特征的关注程度为颜色>瓜藤弯曲程度>响声,那么问题就解决了,我就不用担心买错瓜了!

    4、AI 是一门预测的学问

    概率论有两种思想学派主导。
    一方是频率派,坚信随机事件发生的频次才能刻画概率。
    另一方则是贝叶斯派,认为概率应该表示事件发生的不确定性大小。这时不仅要描述事件的不确定性,还要考虑选择模型的不确定性。贝叶斯理论希望确定最佳模型下参数的不确定性(最大熵模型)。贝叶斯学派建立的概率理论更适用于机器学习。

    5、先验概率 & 后验概率 & 似然函数

    参考:一个例子搞清楚(先验分布/后验分布/似然估计)
       先验概率、后验概率以及共轭先验
    哇咔咔,在搞了几个小时查了n多网页之后,终于弄明白了,那叫一个醍醐灌顶,那叫一个恍然大悟,那叫一个豁然开朗!不过现在自己可能理解地还是不是很透彻,留个坑,日后补充自己地看法。看不懂我写的内容的读者可移步参考链接,以更加深入地了解。
    背景:现在隔壁老王有三种交通方式,步行/骑行/开车,去公园。
    我们要研究老王到达公园的时间,这是结果,也是我们要观察的随机事件,记为 X。达到去公园这个目的的原因,是三种交通方式,记为 theta
    先验概率
    在结果发生前根据历史经验推断原因的概率分布,也称古典概率。
    放到背景中,就是老王还没出发,我们根据他懒的特质,可以预测他到公园会开车。这时候交通方式和到达公园花费的时间没什么关系,毕竟他还没有动身。
    记为p(交通方式)/p(历史条件下的原因)/p(theta)
    后验概率
    在已知结果后计算事件发生的原因的概率分布,也称条件概率。自变量是 X。
    放到背景中,就是老王到了公园,我们知道他花费了多少时间,我们要根据他花费的时间估计他是采用的哪种交通方式。
    记为p(交通方式|花费时间)/p(因|果)/p(theta|X)
    似然函数
    自变量是参数的函数,记为L(theta|X),在数值上等于p(X|theta)。先定下来原因,根据原因来估计结果的概率分布即 似然估计。根据原因来统计各种可能结果的概率即似然函数
    放到背景中,同样是我们要估计老王采用的交通方式,只不过我们不知道路上花费的时间。这时有效的猜测方法就是,我们假设老王采用了某种交通方式,来统计老王花费时间的概率分布。
    记为p(花费时间|交通方式)/p(果|因)/p(X|theta)

    相关文章

      网友评论

        本文标题:【ML】入门系列 之 不得不知的概念

        本文链接:https://www.haomeiwen.com/subject/wekxhqtx.html