1.UCS DFS BFS A* search
2.Game Minimax, αβ pruning
3.CSP
4.FOL resolution proof 将结果取反,和原有条件搞出空集
5.Inference in FOL
- forward chaining 由已知条件modus poneus和and introduction 得到最后结果
- backward chaining 从结果出发进行替换得到所有结果,要画图的
6.CNF
7.Planing
- Partial Order Plan
8.Neural Network 给一个网络看输出是什么或者设计
9.Naive Bayes
- 给一个情景,算概率
- 画Bayesian Network
10.Decision Tree
- 分类
- 算information Gain
11.Markov Decision Processes
- 箭头是Reward,每个格子里的是Untility U(s) = R(s)+𝛾maxa∑s1(P(s1|s,a)U(s1))
- 把格子填满后,各个方向就是Q值,Q值的计算:
如果计算完U值要计算Q值,就是用下面的式子:
有了策略π和立即回报函数r(s,a), Qπ(s,a)如何得到的呢?
对s11计算Q函数(用到了上面Vπ的结果)如下:
Qπ(s11,ar)=r(s11,ar)+ γ Vπ(s12) =0+0.9100 = 90
Qπ(s11,ad)=r(s11,ad)+ γ *Vπ(s21) = 72
Q值怎么计算:Q(E,3,2)那就是MaxQ(4,2)=U(4,2) 既是相应方向相邻格子的U(也是maxQ)
- 增强式学习要注意 第一次不改值,只是找到terminal在哪里
- 这个是增强式学习的时候的式子,一般会给怎么行动的,Q(s,a)← Q(s,a) + ⍺(R(s)+𝛾 maxa’Q(s’,a’)−Q(s,a))
γ越大,小鸟就会越重视以往经验,越小,小鸟只重视眼前利益(R)
α为学习速率(learning rate),γ为折扣因子(discount factor)。根据公式可以看出,学习速率α越大,保留之前训练的效果就越少。折扣因子γ越大,
小鸟在对状态进行更新时,会考虑到眼前利益(R),和记忆中的利益( max_aQ(S', a) )。 image.png
12.Decision Networks
- Compute expected utility (EU)
- EU(AT∧¬SB) = P(Acc|AT∧¬SB)·U(Acc∧¬SB) +P(¬Acc|AT∧¬SB)·U(¬Acc∧¬SB)
随机事件在两个选择下的概率乘以Utility
13.Choose 2 homework3 projects, each one about a different dataset
Describe how each project relates to search, knowledge representation, reasoning about uncertainty, learning
Compare and contrast the two projects, describing limitations and strengths
14.Expected Untility
image.pnga 是action ,s'是a这个动作导致的结果,e是已经发生的事情 比如 J,M
网友评论