＜基礎学習＞10/12-14 cartpole問題を強化学習で攻略する4

前回記事（以下）の続きです。
kurupical.hatenablog.com

cartpoleについては、以下の記事を参照ください。
kurupical.hatenablog.com

やったこと

TargetNetworkの実装

Q-Tableの更新について、これまでは1gameごとに行っていたのを1epochごとに行うようにしました。

モデルのsave/loadの実装

モデルのセーブ/ロードができるようにしました。

結果を見える化

グラフを出力するようにしました。

学習させてみた

「ゲームを1000回分学習させる→20回試行する」を1epochとし、それを1000epoch行いました。
結果。
f:id:kurupical:20171015221129p:plain

グラフの赤線が、ゲームの結果です。(高ければ高いほど良い)
好成績になるよう学習できたかと思いきや、また下手くそになっているのが見て取れます。
右端(900回目〜)でまたちょっとかしこくなっているのを見ると、学習時間が不足しているだけなんでしょうか。
loss(グラフの青線)が下がっているところを見ると、学習は進んでいると思うのですが…。

その他

ソースはGitHubに公開しています。 github.com