我將用5節課的時間講解深度強化學習。這節課的內容是強化學習中的基本概念:Agent (智能體)、Environment (環境)、State (狀態)、Action (動作)、Reward (獎勵)、Policy (策略)、State Transition (狀態轉移) 、Return (回報)、Value Functions (價值函數)。
這節課的主要內容:
0:30 概率論基礎知識
6:56 強化學習基本術語
12:54 Agent (智能體) 與 Environment (環境) 的交互
13:39 強化學習中的隨機性
16:18 Reward (獎勵) 與 Return (回報)
20:31 Value functions (價值函數)
27:51 用強化學習打遊戲,以及OpenAI Gym的使用
34:53 總結這節課的內容