• home
  • about
  • 全ての投稿
  • ソフトウェア・ハードウェアの設定のまとめ
  • 分析関連のまとめ
  • ヘルスケア関連のまとめ
  • 生涯学習関連のまとめ

PPO(Proximal Policy Optimization)

date: 2023-05-27 excerpt: PPO(Proximal Policy Optimization)について

tag: 強化学習KLダイバージェンスopen ai


PPO(Proximal Policy Optimization)について

概要

  • openaiが開発した強化学習手法の一つ
  • 一つのメトリックスに対して学習を続けると、モデルが不安定になったり出力に多様性が失われたりすることから取り入れられた方法
  • 実験ではワークしている

具体的な仕組み

  • 強化学習のエージェントにて学習させるモデルをA, 学習させていないモデルをBとすると、KL(A|B)が一定以内に収まるように学習させるアプローチ
    • 単純に強化学習の損失に距離が遠いほどネガティブに作用するでも良い

参考

  • Proximal Policy Optimization (PPO) Explained
  • 話題爆発中のAI「ChatGPT」の仕組みにせまる


強化学習KLダイバージェンスopen ai Share Tweet