2009-04-04 適格度トレース 強化学習 メモ 適格度トレースについて理解が進んだので、少しだけメモ。 前方観測的な見方は実装不可能 前方観測的な見方はsごとに見ているが、これをtごとに分解し計上する 時間ごとの状態更新式になる 実行しながら更新することが可能 この式のλ項を適格度と呼ぶ