這節課講Policy-Based Reinforcement Learning (策略學習)。主要內容是Policy Network (策略網絡)和Policy Gradient (策略梯度)算法。
這節課主要內容:
0:22 Policy Network (策略網絡)
3:52 State-Value Function (狀態價值函數)
6:12 Policy-Based Learning (策略學習)
8:51 Policy Gradient (策略梯度)
17:20 用策略梯度學習策略網絡
21:05 總結