今天我們會來說說強化學習中的一種actor critic 的提升方式Deep Deterministic Policy Gradient (DDPG), DDPG 最大的優勢就是能夠在連續動作上更有效地學習. 詳細的文字教程: https://morvanzhou .github.io/tutorials/mac... 來源:https://morvanzhou.github.io/tutorials/machine-learning/ML-intro/4-09-DDPG/