[UCAS强化学习]2·马尔可夫决策过程
1 马尔科夫过程
马尔可夫性质:给定当前状态,未来状态与过去状态(即智能体的历史轨迹)是条件独立的,即:
强化学习主要研究的是具有马尔可夫性的问题。
状态转移矩阵:对于马尔可夫状态
定义:马尔可夫过程 (Markov Process) 是一个元组
是一个有限状态集 是状态转移矩阵
例子:“学生马尔可夫链”的状态转移图和状态转移矩阵:
我们可以从这个马尔可夫过程中采样,得到一些轨迹 (episodes),例如:
- C1, C2, C3, Pass, Sleep
- C1, FB, FB, C1, C2, Sleep
- C1, C2, C3, Pub, C2, C3, Pass, Sleep
- C1, FB, FB, C1, C2, C3, Pub, C1, FB, FB, FB, C1, C2, C3, Pub, C2, Sleep
- ……
2 马尔可夫奖励过程
在马尔可夫过程中加入奖励,就得到了马尔可夫奖励过程。
2.1 定义
定义:奖励 (reward)
定义:马尔可夫奖励过程 (Markov Reward Process, MRP) 是一个元组
是一个有限状态集 是状态转移矩阵 是奖励函数 (reward function), 是衰减系数 (discount factor)
2.2 回报
定义:回报 (return)
为什么需要衰减系数?
- 数学上处理较为方便
- 避免在循环马尔可夫过程上出现无穷大的回报
- 我们的建模往往不太精准,对未来的把握不是很确定
- 对动物/人类的行为研究表明,我们更喜欢短期(立即的)奖励
- 如果你真的觉得衰减系数不好,那设置
即可
2.3 价值函数
回报
对上述定义的小结:
- 奖励
是时间 的函数,是一个随机变量,表示 时刻获得的奖励 - 奖励函数
是状态 的函数,表示在状态 处获得奖励的条件期望: - 回报
是时间 的函数,是一个随机变量,表示从 时刻开始未来的(加权)总奖励 - 价值函数
是状态 的函数,表示在状态 处未来的(加权)总奖励的条件期望:
2.4 贝尔曼方程
根据
- 动态规划 (Dynamic Programming)
- 蒙特卡洛估计 (Monte-Carlo evaluation)
- 时序差分学习 (Temporal-Difference learning)
3 马尔科夫决策过程
在 MRP 中加入动作 (action),就得到了马尔科夫决策过程。
3.1 定义
定义:马尔科夫决策过程 (Markov Decision Process, MDP) 是一个元组
是一个有限状态集 是一个有限动作集 是状态转移矩阵, 是奖励函数, 是衰减系数 (discount factor)
注意
3.2 策略
定义:策略 (policy)
MDP 与 MP 和 MRP 的联系:给出一个 MDP
是一个 MP 是一个 MRP
其中:
这两个式子是条件概率(以
3.3 状态/动作-价值函数
仿照 MRP 中价值函数的定义,加入策略
假若在策略
根据条件概率定义和全概率公式,容易知道二者有关系:
3.4 贝尔曼期望方程
仿照 MRP 中关于贝尔曼方程的推导,在 MDP 中进行类似推导:
这些方程称作贝尔曼期望方程 (Bellman Expectation Equation).
3.5 最优价值函数
我们做强化学习的最终目的是找到最佳的策略,因此定义最优状态-价值函数和最优动作-价值函数为:
反之,沿着最大化
3.6 贝尔曼最优方程
由于最优策略也是策略的一种,所以四个贝尔曼方程自然在最优情况下也成立,略作化简可得:
与贝尔曼方程和贝尔曼期望方程不同,由于
- 价值迭代 (value iteration)
- 策略迭代 (policy iteration)
- Q-learning
- Sarsa
这些算法我们将在后续课程中学到。
4 MDPs 扩展(了解)
我们之前考虑的 MDPs 都是有限的、离散的、完全可观测的,如果没有这些限制,我们可以对 MDPs 进行扩展。
4.1 无限 MDPs
无限也分好几种:
- 可数无限的状态/动作空间:这种扩展是比较直接的
- 连续的状态/动作空间:Closed form for linear quadratic model
- 时间上连续:需要偏微分方程,Hamilton-Jacobi-Bellman equation 是贝尔曼方程在
的极限情形
4.2 部分可观测 MDPs
POMDP 是一个具有隐状态的 MDP,是具有动作的隐马尔可夫模型。
定义:POMDP 是一个元组
:观测 (observations) 的有限集合 :观测函数 (observation function),
回顾:历史 (history) 是动作、观察和奖励的序列:
4.3 各态历经马尔可夫过程
各态历经马尔可夫过程 (Ergodic Markov Process) 具有以下特点:
- 常返 (recurrent):每一个状态会被无限次访问
- 非周期 (aperiodic):每一个状态被访问的时间不具有周期性
定理:一个各态历经 MDP 具有极限的平稳分布