作者@ weanl
创建于 2018-12-22T14:30:00
参考链接:
- Lecture9: Exploration and Exploitation of UCL Course on RL @David Silver
1. 介绍
1.1 探索与利用间的困境
-
Online decision-making involves a fundamental choice:
Exploitation
Make the best decision given current information
Exploration
Gather more information - The best long-term strategy may involve short-term sacrifices
- Gather enough information to make the best overall decisions
1.2 生活中栗子
-
Restaurant Selection
Exploitation
Go to your favorite restaurant
Exploration
Try a new restaurant -
Online Banner Advertisements
Exploitation
Show the most successful advert
Exploration
Show a different advert -
Oil Drilling
Exploitation
Drill at the best known location
Exploration
Drill at a new location -
Game Playing
Exploitation
Play the move you believe is best
Exploration
Play an experiment move
1.3 伍种策略规则
-
Naive Exploration
Add noise to greedy policy (e.g. ) -
Optimistic Initialization
Assume the best until proven otherwise - Optimism in the Face of Uncertainty
2. 引入多臂老虎机 (The Multi-Armed Bandit)
拉斯维加斯的一排老虎机维基百科解释如下:
这个名字来自于想象一个赌徒在一排老虎机(有时被称为“单臂匪徒”),他们必须决定要玩哪些机器,玩每台机器多少次以及按顺序播放它们,以及是否继续使用当前的机器或尝试不同的机器。在该问题中,每台机器从特定于该机器的概率分布中提供随机奖励。赌徒的目标是通过一系列杠杆拉动最大化获得的奖励总和。[3] [4]赌徒在每次试验中面临的关键权衡是在“利用”具有最高预期收益的机器和“探索”以获得关于其他机器的预期收益的更多信息之间。
2.1 最大化cumulative reward && 最小化 total regret
-
动作空间和奖赏分布
在时刻,Agent
做出动作,Environment
依据未知分布产生对应的奖赏值。动作空间和奖赏分布 可以记为二元组,产生的具体观测记为 。 -
最大化cumulative reward
且听下回分解
网友评论