deel reinforcement learning

date: 2021-02-20 excerpt: deep reinforcement learningの論文

tag: rf

deep reinforcement learningの論文

状態

\[A = \{1, ..., k\}\]

報酬

\[r_t\]

累積した報酬

\[R_t = sum_{t'=t}{T} \gamma^{t'-t} r_t'\]

割引率

\[\gamma\]

ポリシーマッピング
あるシーンにおける取れるアクションの制約を示す

\[\pi\]

Q関数

\[Q^*(s, a) = \max_\pi E[R_t|s_t=s, a_t=a, \pi]\]

ベルマン方程式から以下のように変形できる

\[Q^*(s, a) = \max_\pi E[r+\gamma \max Q(s', a')|s, a]\]