1950年代-1960年代
1970年代-1980年代
自适应动态规划(Adaptive Dynamic Programming)和Q-learning等基本方法。
1990年代-2000年代
Christopher Watkins提出了基于差分学习的Q-learning算法,这被认为是现代强化学习的重要里程碑。
2010年代
通过深度神经网络的引入,强化学习得到了重大的推动和突破。
Deep Q-Network (DQN) 是由DeepMind提出的一种结合深度神经网络和Q-learning的算法,首次实现了在Atari游戏中超越人类水平的表现。
-
Deep Deterministic Policy Gradient (DDPG) -
Proximal Policy Optimization (PPO)、 -
A3C (Asynchronous Advantage Actor-Critic)
2020年代至今


