這節課分析AlphaGo的技術細節,並且介紹Imitation Learning(模仿學習)、Monte Carlo Tree Search(蒙特卡洛樹搜索)等方法。
這節課主要內容:
0:27 圍棋遊戲
2:52 AlphaGo主要原理
7:45 訓練的第一步:Behavior Cloning
16:13 訓練的第二步:策略學習
23:21 訓練的第三步:價值學習
27:59 實戰:蒙特卡洛樹搜索(Monte Carlo Tree Search)
45:07 總結
47:50 新版AlphaGo Zero 與 舊版AlphaGo的主要區別