PPO(Proximal Policy Optimization)
date: 2023-05-27 excerpt: PPO(Proximal Policy Optimization)について
PPO(Proximal Policy Optimization)について
概要
- openaiが開発した強化学習手法の一つ
- 一つのメトリックスに対して学習を続けると、モデルが不安定になったり出力に多様性が失われたりすることから取り入れられた方法
- 実験ではワークしている
具体的な仕組み
- 強化学習のエージェントにて学習させるモデルをA, 学習させていないモデルをBとすると、
KL(A|B)
が一定以内に収まるように学習させるアプローチ- 単純に強化学習の損失に距離が遠いほどネガティブに作用するでも良い