美文网首页
csci561 期末复习

csci561 期末复习

作者: 弹杯一笑 | 来源:发表于2017-07-26 05:11 被阅读0次

    1.UCS DFS BFS A* search

    2.Game Minimax, αβ pruning

    3.CSP

    4.FOL resolution proof 将结果取反,和原有条件搞出空集

    5.Inference in FOL

    • forward chaining 由已知条件modus poneus和and introduction 得到最后结果
    • backward chaining 从结果出发进行替换得到所有结果,要画图的

    6.CNF

    7.Planing

    • Partial Order Plan

    8.Neural Network 给一个网络看输出是什么或者设计

    9.Naive Bayes

    • 给一个情景,算概率
    • 画Bayesian Network

    10.Decision Tree

    • 分类
    • 算information Gain
    image.png image.png

    11.Markov Decision Processes

    • 箭头是Reward,每个格子里的是Untility U(s) = R(s)+𝛾maxa∑s1(P(s1|s,a)U(s1))
    • 把格子填满后,各个方向就是Q值,Q值的计算:
      如果计算完U值要计算Q值,就是用下面的式子:
      有了策略π和立即回报函数r(s,a), Qπ(s,a)如何得到的呢?
      对s11计算Q函数(用到了上面Vπ的结果)如下:
      Qπ(s11,ar)=r(s11,ar)+ γ Vπ(s12) =0+0.9100 = 90
      Qπ(s11,ad)=r(s11,ad)+ γ *Vπ(s21) = 72

    Q值怎么计算:Q(E,3,2)那就是MaxQ(4,2)=U(4,2) 既是相应方向相邻格子的U(也是maxQ)

    • 增强式学习要注意 第一次不改值,只是找到terminal在哪里
    • 这个是增强式学习的时候的式子,一般会给怎么行动的,Q(s,a)← Q(s,a) + ⍺(R(s)+𝛾 maxa’Q(s’,a’)−Q(s,a))

    γ越大,小鸟就会越重视以往经验,越小,小鸟只重视眼前利益(R)
    α学习速率(learning rate),γ折扣因子(discount factor)。根据公式可以看出,学习速率α越大,保留之前训练的效果就越少。折扣因子γ越大,

    max_aQ(S', a) 所起到的作用就越大。
    小鸟在对状态进行更新时,会考虑到眼前利益(R),和记忆中的利益 max_aQ(S', a) )。 image.png

    12.Decision Networks

    • Compute expected utility (EU)
    • EU(AT∧¬SB) = P(Acc|AT∧¬SB)·U(Acc∧¬SB) +P(¬Acc|AT∧¬SB)·U(¬Acc∧¬SB)
      随机事件在两个选择下的概率乘以Utility
    image.png

    13.Choose 2 homework3 projects, each one about a different dataset

    Describe how each project relates to search, knowledge representation, reasoning about uncertainty, learning
    Compare and contrast the two projects, describing limitations and strengths

    14.Expected Untility

    image.png

    a 是action ,s'是a这个动作导致的结果,e是已经发生的事情 比如 J,M

    相关文章

      网友评论

          本文标题:csci561 期末复习

          本文链接:https://www.haomeiwen.com/subject/hdqukxtx.html