で見て理解するアルゴリズム
Powered by
ThothChildren
Main
Info
項目を検索中...
項目を検索中...
項目を検索中...
タイトルを検索中...
ActorCriticの動きのイメージ
ActorCriticでの強化学習のイメージを持てるような例を紹介します.

これだけ知っとく! : ActorCritic概要
Points!
  • 目標:状態\(s\)における行動\(a\)の価値\(Q[s][a]\)を試行錯誤しながら算出
  • 未知:報酬関数, 遷移確率
  • 与えられた回数、エピソードを経験.各エピソードではゲームを学びながら高い報酬を得られる行動を選択.
  • 報酬や遷移確率が未知なため、手探りに良い手段を探索. 行動選択時に数割ランダムに選択して残りは知識から最善手を選択.(\(\varepsilon-greedy\)法の場合)
  • 更新式:
    \(Q[s_t][a] \leftarrow Q[s_t][a] + \alpha (r_{t+1} + \gamma \displaystyle \max_a (Q[s_{t+1}][a]) - Q[s_t][a]) \\ = (1-\alpha)Q[s_t][a] + \alpha(r_{t+1} + \gamma \displaystyle \max_a (Q[s_{t+1}][a]))\)
前置き! : 状況設定
下記の可視化は以下のようなルールに基づいたゲームです.このゲームでは今いるマスが「状態\(s\)」です.
  • よくある2Dを移動して高い報酬を目指すゲーム
  • スタートのマスからゴールのマスに移動できればOK
  • ダメージがあるマスとゲームオーバーになるマスあり
  • 歩くと少しずつ減点されるので最短でゴールを目指すと報酬が高くなります
  • マスをクリックすることでマスの状態を変更可能
  • パラメータを変更することで学習のされ方/可視化を変更可能
  • 「Random」はランダムに選択された行動できたことを示す表示
  • 番号は移動してきた順番
  • 赤や緑の色はQ値の具合を表現
  • Game Startボタン : 迷路を解きます.
  • Game Start Slowボタン : 1エピソードを体験して止まるを繰り返し迷路を解きます.
可視化! : スタートからゴールまで行くGame
S
G
Actor's Q
S
G
Critic's V
Facebookシェア Twitterツイート LINEで送る