• home
  • about
  • 全ての投稿
  • ソフトウェア・ハードウェアの設定のまとめ
  • 分析関連のまとめ
  • ヘルスケア関連のまとめ
  • 生涯学習関連のまとめ

deel reinforcement learning

date: 2021-02-20 excerpt: deep reinforcement learningの論文

tag: rf


deep reinforcement learningの論文

  • deel Q learningの初めてに近い論文を読んだのでまとめる

前提と式

状態

\[A = \{1, ..., k\}\]

報酬

\[r_t\]

累積した報酬

\[R_t = sum_{t'=t}{T} \gamma^{t'-t} r_t'\]

割引率

\[\gamma\]

ポリシーマッピング
あるシーンにおける取れるアクションの制約を示す

\[\pi\]

Q関数

\[Q^*(s, a) = \max_\pi E[R_t|s_t=s, a_t=a, \pi]\]

ベルマン方程式から以下のように変形できる

\[Q^*(s, a) = \max_\pi E[r+\gamma \max Q(s', a')|s, a]\]

結果

  • 人間を超える性能
  • 特徴量を単純化した等はあるが、ネットワークの記述が薄い(2013年の論文なので)

参考

  • Playing Atari with Deep Reinforcement Learning


rf Share Tweet