<基礎学習>10/12-14 cartpole問題を強化学習で攻略する4
前回記事(以下)の続きです。
kurupical.hatenablog.com
cartpoleについては、以下の記事を参照ください。
kurupical.hatenablog.com
やったこと
TargetNetworkの実装
Q-Tableの更新について、これまでは1gameごとに行っていたのを1epochごとに行うようにしました。
モデルのsave/loadの実装
モデルのセーブ/ロードができるようにしました。
結果を見える化
グラフを出力するようにしました。
学習させてみた
「ゲームを1000回分学習させる→20回試行する」を1epochとし、それを1000epoch行いました。
結果。
グラフの赤線が、ゲームの結果です。(高ければ高いほど良い)
好成績になるよう学習できたかと思いきや、また下手くそになっているのが見て取れます。
右端(900回目〜)でまたちょっとかしこくなっているのを見ると、学習時間が不足しているだけなんでしょうか。
loss(グラフの青線)が下がっているところを見ると、学習は進んでいると思うのですが…。
その他
ソースはGitHubに公開しています。 github.com