注:以下内容基于CS598.
1. Estimate Model
给定数据集, 采用极大似然对模型进行估计。用
表示
的样本数。
2. Analysis of Certainty-Equivalence RL
2.1 Naive analysis
根据Hoeffding's Inequality: With probability at least ,
将失败率分别平摊到
和
个事件上,有:
所以, 定义为一个
维的vector,有:
-
Lemma 1(Simulation Lemma)
If and
, then for any policy
, we have
Proof:
-
Lemma 1(Evaluation error to decision loss)
Proof:
Heresupresses poly-logarithmic dependences on
and
.
2.2 Improving
to
对于任意向量, 有
所以对于任意给定的 和任意给定的
,
是以
为界的随机变量,以至少
, 有
所以, 以至少的概率,有
所以,
网友评论