<<展開

Adadelta最適化関数

概要

学習係数を自動で調整する最適化関数. Adagradで学習が進むにつれて学習係数が0になってしまう点を改良した最適化関数. 単位を揃えることで学習係数の初期値を不要にしている.
Facebookシェア Twitterツイート LINEで送る このエントリーをはてなブックマークに追加
この章を学ぶ前に必要な知識
0
ポイント
  • 過去数個の勾配に限定して更新量を計算
  • 学習係数を自動で更新
  • 学習係数初期値不要
  • Adagradを改良した最適化関数

解 説

AdadeltaはAdagradでの ・学習が進むと学習係数が0になってしまうこと ・過去の勾配を全て保持していること ・単位が揃っていないこと の課題を解決した最適化関数. 上記の課題をそれぞれ ・過去全てを使わずn個分のみを使用して学習係数を調整する ・n個分を保持するのではなく合計値を保持する.(指数平滑移動平均で更新) ・パラメータと同じ単位にするため、学習係数を過去のパラメータ平均に置き換える
Adagrad最適化関数
$$w_t = w_{t-1} - \frac{RMS(\Delta{w})_{t-1}}{RMS(\nabla{J(w)})_t} \nabla{J(w_t)}$$
Adadelta最適化関数 RMSは与えられた変数を二乗してたし合わせ平均する関数(二乗平均平方根)
この章を学んで新たに学べる
Comments

Reasons
>>隠す

知識: Adagrad最適化関数
学習係数を自動調整していく最適化関数の一つ. 過去の勾配と最新の勾配を元に各パラメータごとに学習率を調整するのが特徴. Adam, Adadelta, RMSPropはAdagradを改良したもの