【QA】什麼是強化學習的Actor – Critic 演算法?
Actor Critic 是結合Policy Gradient與Q-learning 兩者優點,演變出的演算法,在強化學習中也是重要的演算法之一,接下來我想跟大家簡單的了解一下這個主題。
回答列表
-
2021/09/22 下午 08:39Chili贊同數:0不贊同數:0留言數:0
* What is Actor-Critic : 在一般的強化學習中有兩種訓練的Network,其一為Policy network,輸入state預測每個Action 的機率,例如:Policy Gradient就是如此;另一種為Value Network,預測State Value ,例如Q-learning。 而Actor-Critic則是結合兩者優點的演算法。 Actor-Critic 剛好可以拆分成兩個部分來看,Actor有Policy Gradient 的影子在裡頭,而Critic 則是Value Network的應用。 讓Policy Network 的Actor 來選擇行為Action,而Critic 工作就是要評估Actor 的好壞,預測Actor接下來會得到多少的Reward,而Actor會根據Critic 給的值來更新模型。 ---- 傳統的Policy network是回合更新的,需要完成整個Episode才可以計算獎懲(Reward),使得模型學習效率不佳。而一般的Q-learning 雖然為單步更新,卻沒有辦法處理連續型的動作,受限於只能訓練非連續型動作的模型。 因此將兩著優點結合,使得模型既可以訓練連續型動作,且可以以單步更新的方式進行,使得在訓練上可以更有效率。 --- 關於演算法詳細公式講解可以參考: 李宏毅 https://www.youtube.com/watch?v=kk6DqWreLeU 莫凡 https://www.youtube.com/watch?v=HTONz4ZLGxw