logo
Loading...

Sarsa算法 (TD Learning 1/3) - Shusen Wang - 深度學習 Deep Learning 公開課 - Cupoy

这节课介绍 State-Action-Reward-State-Action (SARSA) 算法,它属于 TD Learning (时间差分法)。可以拿它来学习 action-value (动作价值...

这节课介绍 State-Action-Reward-State-Action (SARSA) 算法,它属于 TD Learning (时间差分法)。可以拿它来学习 action-value (动作价值) 。这节课的主要内容: 0:23 推导 TD Target 5:09 表格形式的 Sarsa 算法 7:35 神经网络形式的 Sarsa 算法。