这节课的主要内容是 Experience Replay (经验回放) 和 Prioritized Experience Replay (优先经验回放)。经验回放有两个好处:1. 重复利用收集到的奖励;2. 打破两条 transitions 之间的相关系。 0:30 复习 DQN 和 TD 算法 4:05 原始的 TD 算法的缺点 5:26 经验回放 8:10 优先经验回放