<基礎学習>10/11 強化学習topics(+雑記)

cartpole問題やっているのですが、いかんせん学習の待ち時間が長いのでその間に強化学習をいろいろ調べていました。

世に出ているスライド読んでみた

深層強化学習の動向

speakerdeck.com

面白かったところ

  • 強化学習をブーストさせる考え方
    • 学習に有用な経験を優先して学習する(Prioritized Experience Replay)
    • 並列分散アーキテクチャ(ゲームをさせるのと学習させるのを並行する)

上記の考え方は自分のプログラムに組み入れたいと思いました。

  • 多機能で様々な局面に対応させるための考え方
    • 難しいタスクを1から学習するのは難しい
      →他のタスクで得た知識を利用する
    • ランダム遷移の限界(難しいゲームはそもそもクリアできない→報酬を得るデータが得られない) DQNの基本は、ゲームをランダム操作でやらせてたまたまうまく行ったものをベースに学習していきます。
      ゲームが難しすぎる場合はランダム操作でやってもクリアできない(=学習できるベースがない)ことになります。
      →この対策として、これまでしたことのない操作をした場合に追加報酬を与えます。

強化学習が発達科学的な(?)アプローチをとっていて面白いなと思いました。
特に後者の考え方は、「好奇心」に相当するアルゴリズムを強化学習に採用していることになります。

赤ちゃんがなぜ言葉を覚えたりブランコに乗ることができるようになったりするのか。
その理由の一つとして「好奇心」があるというふうに言われています。

強化学習に限らずAI全般、考え方を人間の脳や発達に寄せていっているところがあって面白いです。

雑記

読書会

主催の第2回(正確には第3回)の読書会が定員オーバーになっています。
1回目に参加いただいた方の出席率も多いみたいで嬉しいです。
osaka-prg-school.connpass.com
とても楽しみです!

GMOエンジニアトークいってきました

jisedai.connpass.com
ちょうど、深層強化学習を用いた株取引のトピックがあったので聞いてきました。
講演を聞いて、あと講演後に直接講演者に質問しにいって結構いいヒントが得られました。

僕が不勉強なだけですが、「マーケットインパクト」という言葉がめっちゃ印象に残りました。

マーケットインパクト = |(終値始値)| / 出来高

価格だけを用いた分析では駄目で、マーケットインパクトを使うとうまくいきましたということでした。