课程简介
随着机器学习技术在人们日常生活的逐渐普及,人们对机器学习技术的信赖也日渐高涨,期望机器学习能完成除了预测型任务以外更加重要的任务,即决策型任务。决策型任务在日常生活中随处可见,例如游戏AI、无人驾驶、对话机器人、交互式推荐系统、智能交通灯调度等等。和预测型任务相比,决策型任务的最大不同点在于,因为做出的决策要对环境做出实在的改变,机器(智能体)需要推几步甚至更长的时间长做出规划。这种在和环境交互中学习、并对未来做出规划的机器学习技术被称为强化学习。
本课程提供强化学习的入门基础讲解,让学生能够较为全面地了解强化学习这门学科的各类问题和方法论,包括强化学习基础概念和理论、马尔科夫决策过程、动态规划、时序查分学习、值函数学习、模型无关控制方法、策略梯度、深度强化学习、模仿学习、多智能体强化学习等。此外,本课程强调学生的动手能力,要求学生通过编写机器学习的程序完成智能任务,并鼓励学生不断改善模型和代码实现从而提高智能体的效能。
教材
动手学强化学习 张伟楠、沈键、俞勇 人民邮电出版社,2022 ISBN: 978-7-115-58451-9 |
课件与授课视频
教辅部分
第0讲:教辅材料 - 强化学习关键定理证明
探索与利用遗憾、占用度量、贝尔曼不动点、策略提升定理、Q-learning收敛、策略梯度定理、TRPO单调提升 2024年2月18日 |
基础部分
video |
第1讲:强化学习简介、探索与利用
决策型AI、强化学习、探索与利用、多臂老虎机 2024年2月19日 |
video |
第2讲:MDP和动态规划
马尔可夫决策过程、基于动态规划的强化学习、基于模型的强化学习 2024年2月26日 |
video |
第3讲:值函数估计
无模型的强化学习、蒙特卡洛方法、价值预测、重要性采样、时序差分学习 2024年3月4日 |
video |
第4讲:无模型控制方法
SARSA、Q学习算法及其收敛性、多步自助法 2024年3月11日 |
video |
第5讲:规划与学习
规划与学习之入门算法和介绍、规划与学习之采样方法、规划与学习之决策时规划 2024年3月18日 |
video |
第6讲:参数化的值函数和策略
参数化值函数近似、状态值函数与状态-动作值函数近似、策略梯度、Actor-Critic 2024年3月25日 |
video |
第7讲:深度强化学习价值方法
深度强化学习、深度Q网络、确定性策略梯度、深度确定性策略梯度、双价值函数策略延时更新 2024年4月1日 |
video |
第8讲:深度强化学习策略方法
基于神经网络的策略梯度、A3C、确定性梯度策略、深度确定性策略梯度、TRPO、PPO 2024年4月8日 |
前沿部分
video |
第9讲:基于模型的深度强化学习
Dyna, RS, PETS, MBPO, BMPO, AMPO, AutoMBPO 2024年4月15日 |
video |
第10讲:模仿学习
Imitation learning, behavior cloning, inverse RL, GAIL, GAN & IL 2024年4月22日 |
video |
第11讲:离线强化学习
Offline RL, imitation, model-free ORL, model-based ORL, OPE, ORL benchmarks 2024年4月29日 |
video |
第12、13讲:多智能体强化学习
MARL cases, game theory, MARL methods, many-agent RL 2024年5月6日 |
video |
第14讲:AI Agent与决策大模型
从生成到决策、决策大模型、AI agents、large RL models 2024年5月20日 |
video |
第15讲:基于扩散模型的强化学习
Diffusion models, roles of DM in RL, application of DM in RL 2024年5月27日 |
版权申明:本课程课件和视频版权归上海交通大学张伟楠所有。
News
Sep. 7, 2024
2024年上海交通大学现场授课视频开始陆续发布至B站。