PROFILBARU.COM

時間差分学習（じかんさぶんがくしゅう、英: temporal difference learning）やTD学習とは、現在の状態価値関数の推定からブートストラップで学習するモデルフリーの強化学習の手法。モンテカルロ法のように環境からサンプルを取り、動的計画法のように現在の推定に基づいて状態価値関数を更新する。^[1]

状態価値関数 $V(s)$ は、現在および将来に得られる報酬（reward）になるように学習させる。ただし、将来分の報酬は、経済学でも使われる割引率（discount rate）をかけた物を使用する。これを割引収益（discounted return）と呼ぶ。

考え方自体は少なくとも1959年の時点でArthur Samuelがチェッカーをプレーする人工知能のプログラムで使用しているが、temporal difference learningという呼び方は1988年にリチャード・サットンが命名している。^[2]

アルゴリズム

状態 $S_{t}$ のエージェントが行動 $A_{t}$ を選び、報酬 $R_{t+1}$ を得て、状態が $S_{t+1}$ に遷移したとする。このとき状態価値関数 $V(S_{t})$ を次の式で更新する。

V(S_{t})\leftarrow (1-\alpha )V(S_{t})+\alpha \left[R_{t+1}+\gamma V(S_{t+1})\right]

ここで $\alpha$ は学習率といい、 $0<\alpha <1$ とする。 $\gamma$ は割引率といい、 $0<\gamma <1$ な定数である。

行動 $A_{t}$ は、状態価値関数を使用して選択する。

更新式は

V(S_{t})\leftarrow V(S_{t})+\alpha \left[R_{t+1}+\gamma V(S_{t+1})-V(S_{t})\right]

とも書けるが、 $R_{t+1}+\gamma V(S_{t+1})-V(S_{t})$ をTD誤差（TD error）と呼ぶ。^[3]

参照

^ Sutton, Richard S.; Barto, Andrew G. (2018). Reinforcement Learning: An Introduction (2nd ed.). Cambridge, MA: MIT Press. p. 133
^ Sutton, Richard S. (1988-08-01). “Learning to predict by the methods of temporal differences”. Machine Learning 3 (1): 9–44. doi:10.1007/BF00115009. https://doi.org/10.1007/BF00115009.
^ Richard S. Sutton; Andrew G. Barto (2018). Reinforcement Learning, second edition: An Introduction. Bradford Books. ISBN 978-0262039246

時間差分学習

アルゴリズム

参照

関連項目