Actor Criticのアニメーション/可視化(強化学習@工学) - 動き/アニメーションを目で見て理解する学問

で見て理解するアルゴリズム

Main

Info

項目を検索中...

タイトルを検索中...

ActorCriticの動きのイメージ

ActorCriticでの強化学習のイメージを持てるような例を紹介します.

これだけ知っとく! : ActorCritic概要

Points!

目標:状態\(s\)における行動\(a\)の価値\(Q[s][a]\)を試行錯誤しながら算出
未知:報酬関数, 遷移確率
与えられた回数、エピソードを経験.各エピソードではゲームを学びながら高い報酬を得られる行動を選択.
報酬や遷移確率が未知なため、手探りに良い手段を探索. 行動選択時に数割ランダムに選択して残りは知識から最善手を選択.(\(\varepsilon-greedy\)法の場合)
更新式:
\(Q[s_t][a] \leftarrow Q[s_t][a] + \alpha (r_{t+1} + \gamma \displaystyle \max_a (Q[s_{t+1}][a]) - Q[s_t][a]) \\ = (1-\alpha)Q[s_t][a] + \alpha(r_{t+1} + \gamma \displaystyle \max_a (Q[s_{t+1}][a]))\)

前置き! : 状況設定

下記の可視化は以下のようなルールに基づいたゲームです.このゲームでは今いるマスが「状態\(s\)」です.

可視化! : スタートからゴールまで行くGame

Actor's Q

Critic's V