这节课介绍 DQN 的高估问题以及两种解决方案:Target Network 和 Double DQN。主要内容: 0:12 Boostrapping (自举) 2:23 DQN 的高估问题以及造成高估问题的原因(最大化和自举) 11:36 使用 Target Network 缓解高估。 14:23 使用 Double DQN 缓解高估。