這節課講Value-Based Reinforcement Learning (價值學習)。這節課的主要內容是Deep Q Network (DQN)和Temporal Different (TD)算法。 這節課的主要內容: 0:12 複習Value Functions (價值函數) 3:05 Deep Q Network (DQN) 8:22 用個簡單的例子講解Temporal Different (TD)算法 15:49 用TD算法訓練DQN 23:40 總結本節課內容