这节课介绍 Q-learning 算法,它属于 TD Learning (时间差分法)。可以拿它来学习 optimal action-value (最优动作价值) 。它是训练 DQN 的标准算法。这节课的主要内容: 1:30 推导 TD Target 4:42 表格形式的 Q-learning 算法 5:58 神经网络形式的 Q-learning 算法。