這節課講Actor-Critic Methods。 這節課主要內容: 0:33 策略網絡和價值網絡的架構 5:30 訓練兩個神經網絡 12:21 理解Actor-Critic方法 15:04 算法實現 19:43 總結