[UCAS强化学习]1·概述

1 关于强化学习

强化学习是一种优化智能体在环境中行为的方法，根据环境反馈的奖励，调整智能体的行为策略，提升智能体实现目标的能力。

强化学习与多学科交叉：强化学习与计算机科学、工程学、数学、神经学、心理学、生态学等众多领域都有联系，涉及最优控制、机器学习、运筹学、线性代数、概率统计、随机过程、计算机编程等学科。

强化学习与其他机器学习方法：一般而言，我们把机器学习分成有监督学习、无监督学习和强化学习三大类，强化学习与另外二者有很大的区别。

强化学习：

产生的结果（动作）能够改变数据的分布（状态）
最终的目标可能要很长时间才能观察到 / 奖励稀疏（例如下棋）
没有明确的标签数据
根据当前的奖励，最终实现长远的目标

监督学习 / 无监督学习：

产生的结果（输出）不会改变数据的分布
结果是瞬时的 / 输出误差
要么有明确的标签数据（监督学习）
要么完全没有任何标签数据（无监督学习）

强化学习有很多应用，例如：控制直升机的特技飞行、下棋、管理投资、控制类人机器人行走、玩游戏……

2 课程概要

Lecture 2. 马尔可夫决策过程

Lecture 3. 动态规划，策略迭代，价值迭代

Lecture 4. 蒙特卡洛，时间差分

Lecture 5. Sarsa，Q-learning

Lecture 6. 函数逼近

Lecture 7. 策略梯度

Lecture 8. 博弈强化学习

Lecture 9. 逆强化学习

Lecture 10. 离线强化学习

Lecture 11. DQN，AlphaGO

Lecture 12. 深度强化学习，自动驾驶

3 强化学习基本元素

状态 (state)：描述当前智能体位置、姿态等信息的变量

状态空间 (state space)：智能体所有可能状态的集合，可以是离散状态集或连续状态空间

动作 (action)：智能体能够执行，改变当前状态的变量

动作空间 (action space)：智能体所有可行的动作集合，可以是离散动作集或连续动作空间

策略 (policy)：状态空间到动作空间的映射，代表了智能体是如何行为的

确定性 (deterministic) 策略：
随机 (stochastic) 策略：

状态转移 (state transition) / 环境 (environment) / 模型 (model)：描述智能体在给定动作下状态的变化

离散时间，包括确定性转移和随机转移
连续时间

奖励 (reward)：环境对智能体当前的状态 / 动作好坏程度的反馈，是一个标量随机变量

回报 (return)：智能体从某一初始状态出发，在策略下产生的轨迹上的累加奖励其中为折扣因子 (discount factor).

价值函数 (value function)：评价一个状态或动作的好坏，定义为智能体在当前状态下回报的期望 奖励假设 (reward hypothesis)：智能体的任务就是要最大化期望累加奖励（价值函数）

最优价值 (optimal value)：智能体在每个状态下能获得的最高价值

最优策略 (optimal policy)：能够使智能体获得最高价值的策略

4 强化学习基本问题

Learning and Planning

在 learning 问题中，智能体不知道环境的运行机制、不知道游戏的规则，仅能通过与环境交互来改善策略；在 planning 问题中，智能体有一个环境的模型，无需与环境交互就可以依靠模型进行运算来改善策略。

二者是紧密相连的，面对一个 learning 问题，智能体可以首先通过交互构建模型，学习环境的运行机制，然后用模型进行规划。

Exploration and Exploitation

Exploration 和 exploitation 是一种 trade-off 的关系。前者意味着试错，可能导致更差的奖励，但也可能发现更好的策略；后者意味着用已知的信息找寻最好的策略，而不是尝试新事物。

Prediction and control

Prediction 指给定一个策略后，计算未来的奖励，可以理解为求解给定策略下的价值函数；Control 指找到最佳策略以最大化未来的奖励。

5 课程参考资料

赵冬斌, 朱圆恒, 中国科学院大学《强化学习》课程
David Silver, University College London Course on Reinforcement Learning, link
Emma Brunskill, Stanford CS234 Reinforcement Learning
Sergey Levine, UC Berkeley CS 294 Deep Reinforcement Learning
CMU 10703: Deep RL and Control

课程书籍笔记 > UCAS 强化学习

#reinforcement learning

[UCAS强化学习]1·概述

https://xyfjason.github.io/blog-main/2024/04/05/UCAS强化学习-1·概述/

作者

xyfJASON

发布于

2024年4月5日

许可协议

[UCAS强化学习]2·马尔可夫决策过程上一篇

[Evans Intro SDE]3·Brownian Motion 下一篇