策略迭代 Policy Iteration
策略迭代包括策略评估(Policy Evaluation)和策略改进(Policy Improvement)两个步骤,通过二者的交替迭代来求解MDP。
策略评估
给定一个Policy,通过动态规
2022-03-31