目录
考题
知识点1:critic、actor
定理1:策略梯度理论
定理2:函数近似理论
知识点3:蒙特卡洛策略梯度
知识点4:Actor-critic算法
知识点:Advantage Function
总结
考题
知识点1:critic、actor
定理1:策略梯度理论
定理2:函数近似理论
函数近似理论的证明:
知识点3:蒙特卡洛策略梯度
蒙特卡洛参数的更新运用了随机梯度上升的方法。蒙特卡洛策略梯度更新的公式以及伪代码如下所示:
蒙特卡洛策略梯度具有较大的方差,我们使用critic的方法去估计动作值函数,更新过程以及思想如下所示:
知识点4:Actor-critic算法
知识点:Advantage Function
(1)优势函数的定义
(2)优势函数的估计
优势函数可以显著降低策略梯度的方差,因此批评者应该真正估计优势函数
(3) Critics at Difffferent Time-Scales/在不同时间尺度上的批评者
(4) Actors at Difffferent Time-Scales/在不同时间尺度上的评论者
Alternative Policy Gradient Directions
梯度上升算法可以遵循任何上升方向。一个良好的上升方向可以显著加速收敛速度。策略通常可以重新参数化而不改变动作概率,例如,在softmax策略中增加所有动作的得分。普通的梯度对这些重新参数化很敏感。
Natural Policy GradientNatural Actor-Critic