logo
Loading...

Q-Learning算法 (TD Learning 2/3) - Shusen Wang - 深度學習 Deep Learning 公開課 - Cupoy

这节课介绍 Q-learning 算法,它属于 TD Learning (时间差分法)。可以拿它来学习 optimal action-value (最优动作价值) 。它是训练 DQN 的标准算法。这节...

这节课介绍 Q-learning 算法,它属于 TD Learning (时间差分法)。可以拿它来学习 optimal action-value (最优动作价值) 。它是训练 DQN 的标准算法。这节课的主要内容: 1:30 推导 TD Target 4:42 表格形式的 Q-learning 算法 5:58 神经网络形式的 Q-learning 算法。