上海交通大学强化学习课程 

Reinforcement Learning Course at SJTU 

张伟楠, 教授

上海交通大学计算机科学与工程系
上海交通大学致远学院

课程简介

随着机器学习技术在人们日常生活的逐渐普及,人们对机器学习技术的信赖也日渐高涨,期望机器学习能完成除了预测型任务以外更加重要的任务,即决策型任务。决策型任务在日常生活中随处可见,例如游戏AI、无人驾驶、对话机器人、交互式推荐系统、智能交通灯调度等等。和预测型任务相比,决策型任务的最大不同点在于,因为做出的决策要对环境做出实在的改变,机器(智能体)需要推几步甚至更长的时间长做出规划。这种在和环境交互中学习、并对未来做出规划的机器学习技术被称为强化学习。

本课程提供强化学习的入门基础讲解,让学生能够较为全面地了解强化学习这门学科的各类问题和方法论,包括强化学习基础概念和理论、马尔科夫决策过程、动态规划、时序查分学习、值函数学习、模型无关控制方法、策略梯度、深度强化学习、模仿学习、多智能体强化学习等。此外,本课程强调学生的动手能力,要求学生通过编写机器学习的程序完成智能任务,并鼓励学生不断改善模型和代码实现从而提高智能体的效能。

教材


动手学强化学习
张伟楠、沈键、俞勇
人民邮电出版社,2022
ISBN: 978-7-115-58451-9

课件与授课视频

教辅部分


pdf
第0讲:教辅材料 - 强化学习关键定理证明
探索与利用遗憾、占用度量、贝尔曼不动点、策略提升定理、Q-learning收敛、策略梯度定理、TRPO单调提升
2024年2月18日

基础部分


pdf

video
第1讲:强化学习简介、探索与利用
决策型AI、强化学习、探索与利用、多臂老虎机
2024年2月19日

pdf

video
第2讲:MDP和动态规划
马尔可夫决策过程、基于动态规划的强化学习、基于模型的强化学习
2024年2月26日

pdf

video
第3讲:值函数估计
无模型的强化学习、蒙特卡洛方法、价值预测、重要性采样、时序差分学习
2024年3月4日

pdf

video
第4讲:无模型控制方法
SARSA、Q学习算法及其收敛性、多步自助法
2024年3月11日

pdf

video
第5讲:规划与学习
规划与学习之入门算法和介绍、规划与学习之采样方法、规划与学习之决策时规划
2024年3月18日

pdf

video
第6讲:参数化的值函数和策略
参数化值函数近似、状态值函数与状态-动作值函数近似、策略梯度、Actor-Critic
2024年3月25日

pdf

video
第7讲:深度强化学习价值方法
深度强化学习、深度Q网络、确定性策略梯度、深度确定性策略梯度、双价值函数策略延时更新
2024年4月1日

pdf

video
第8讲:深度强化学习策略方法
基于神经网络的策略梯度、A3C、确定性梯度策略、深度确定性策略梯度、TRPO、PPO
2024年4月8日

前沿部分


pdf

video
第9讲:基于模型的深度强化学习
Dyna, RS, PETS, MBPO, BMPO, AMPO, AutoMBPO
2024年4月15日

pdf

video
第10讲:模仿学习
Imitation learning, behavior cloning, inverse RL, GAIL, GAN & IL
2024年4月22日

pdf

video
第11讲:离线强化学习
Offline RL, imitation, model-free ORL, model-based ORL, OPE, ORL benchmarks
2024年4月29日

pdf

video
第12、13讲:多智能体强化学习
MARL cases, game theory, MARL methods, many-agent RL
2024年5月6日

pdf

video
第14讲:AI Agent与决策大模型
从生成到决策、决策大模型、AI agents、large RL models
2024年5月20日

pdf

video
第15讲:基于扩散模型的强化学习
Diffusion models, roles of DM in RL, application of DM in RL
2024年5月27日

版权申明:本课程课件和视频版权归上海交通大学张伟楠所有。

News


Sep. 7, 2024
2024年上海交通大学现场授课视频开始陆续发布至B站。