<基礎学習>10/12-14 cartpole問題を強化学習で攻略する4

前回記事(以下)の続きです。
kurupical.hatenablog.com

cartpoleについては、以下の記事を参照ください。
kurupical.hatenablog.com

やったこ

TargetNetworkの実装

Q-Tableの更新について、これまでは1gameごとに行っていたのを1epochごとに行うようにしました。

モデルのsave/loadの実装

モデルのセーブ/ロードができるようにしました。

結果を見える化

グラフを出力するようにしました。

学習させてみた

「ゲームを1000回分学習させる→20回試行する」を1epochとし、それを1000epoch行いました。
結果。
f:id:kurupical:20171015221129p:plain

グラフの赤線が、ゲームの結果です。(高ければ高いほど良い)
好成績になるよう学習できたかと思いきや、また下手くそになっているのが見て取れます。
右端(900回目〜)でまたちょっとかしこくなっているのを見ると、学習時間が不足しているだけなんでしょうか。
loss(グラフの青線)が下がっているところを見ると、学習は進んでいると思うのですが…。

その他

ソースはGitHubに公開しています。 github.com

<基礎学習>10/11 強化学習topics(+雑記)

cartpole問題やっているのですが、いかんせん学習の待ち時間が長いのでその間に強化学習をいろいろ調べていました。

世に出ているスライド読んでみた

深層強化学習の動向

speakerdeck.com

面白かったところ

  • 強化学習をブーストさせる考え方
    • 学習に有用な経験を優先して学習する(Prioritized Experience Replay)
    • 並列分散アーキテクチャ(ゲームをさせるのと学習させるのを並行する)

上記の考え方は自分のプログラムに組み入れたいと思いました。

  • 多機能で様々な局面に対応させるための考え方
    • 難しいタスクを1から学習するのは難しい
      →他のタスクで得た知識を利用する
    • ランダム遷移の限界(難しいゲームはそもそもクリアできない→報酬を得るデータが得られない) DQNの基本は、ゲームをランダム操作でやらせてたまたまうまく行ったものをベースに学習していきます。
      ゲームが難しすぎる場合はランダム操作でやってもクリアできない(=学習できるベースがない)ことになります。
      →この対策として、これまでしたことのない操作をした場合に追加報酬を与えます。

強化学習が発達科学的な(?)アプローチをとっていて面白いなと思いました。
特に後者の考え方は、「好奇心」に相当するアルゴリズムを強化学習に採用していることになります。

赤ちゃんがなぜ言葉を覚えたりブランコに乗ることができるようになったりするのか。
その理由の一つとして「好奇心」があるというふうに言われています。

強化学習に限らずAI全般、考え方を人間の脳や発達に寄せていっているところがあって面白いです。

雑記

読書会

主催の第2回(正確には第3回)の読書会が定員オーバーになっています。
1回目に参加いただいた方の出席率も多いみたいで嬉しいです。
osaka-prg-school.connpass.com
とても楽しみです!

GMOエンジニアトークいってきました

jisedai.connpass.com
ちょうど、深層強化学習を用いた株取引のトピックがあったので聞いてきました。
講演を聞いて、あと講演後に直接講演者に質問しにいって結構いいヒントが得られました。

僕が不勉強なだけですが、「マーケットインパクト」という言葉がめっちゃ印象に残りました。

マーケットインパクト = |(終値始値)| / 出来高

価格だけを用いた分析では駄目で、マーケットインパクトを使うとうまくいきましたということでした。

<基礎学習>10/8-10/10 cartpole問題を強化学習で攻略する3

前回の記事に引き続き、cartpole問題に取り組んでいます。

kurupical.hatenablog.com

前回からおよそ4時間費やしています。
(最近、「時間家計簿」をつけるようにしています。
ちょっとバタバタしたり怠惰したりして、あまりできませんでした。
時間家計簿を見ると、自分が全然開発に時間使えていないことにげんなりしました…。)

試行錯誤したこ

  • チューニングポイント

    • 時間割引率 gamma
      0.9だとダメ。0.95でうまく行った。
    • Optimizer
      何も考えずAdamを使っていたのですが、DQNにはDQNのOptimizerがあるみたいです。以下サイトを参考に、RMSPropを使っています。
      qiita.com
  • cartpoleの仕様理解不足によるバグ
    ゲーム終了はポールが倒れた時のみと思い「ゲーム終了」なら報酬=-1としていました。実際は、200フレームを経過した場合もゲーム終了となります。この場合も報酬=-1としていました。

結果

学習を進めることで、150フレームまでいけた!※10回試行の平均
(ランダムに動かすと20なので、ちゃんとゲームできているみたい)

課題

  • 学習が不安定
    成長したと思ったら全然できなくなったり…。上記の場合も、平均フレーム=150まで成長したと思いきや次で平均フレーム=50しかできなくなったり…
    強化学習とはそういうものなのでしょうか?

<基礎学習>10/7 cartpole問題を強化学習で攻略する2 (+雑記)

強化学習を進めました。

(前回の記事:プログラムの骨組みができた)
kurupical.hatenablog.com

今日やったこ

以下を行いました。

  • プログラムの凡ミスを修正
    • 1000データあるなかの1つのデータのみを繰り返し学習させていたという痛恨の凡ミス。
  • 重みの初期化が下手だった。(平均=0、標準偏差=0.01) → (平均=0、標準偏差=1)
  • 学習率0.001→0.01

そして、(100回分を学習→10回試行)を繰り返してみました。

f:id:kurupical:20171007225112p:plain:w400

最初の100〜1000回くらいはそれなりにやってくれるようになりました。
(調子のいい時は、最初の100回の学習後の10回試行で平均80くらいになります。)
その後はずっと下手くそに戻ります。

プログラムのバグか、学習アルゴリズムが悪いっぽいので引き続き少し見てみようと思います。

雑記

フリーランス

自分は企業就職しか考えていなかったのですが、ふとしたきっかけからフリーランスという選択肢が生まれました。
今複数オファーいただいています。
フリーランスがよくわからないので、「フリーランスで生きるとは」的な本を読み漁っています。おすすめあったら教えてください。

Googleアナリティクス入れてみた

アクセス数が少し増えてきました(といっても1日10〜20くらい)。
どこから来ていただいているのか気になるので、Googleアナリティクスを入れてみました。

ニート一週間やってみて

  • 毎日好きなことを好きなリズムで勉強しまくれてすごい楽しいです。
    一方で将来がすげー心配です。
  • 貯金+投資の勉強しててよかった。
    「やりたいことができた時のためにお金を作っておく」って、いつやりたいことができるんだろう?なんて思っていましたが…

<基礎学習>10/5-6 cartpole問題を強化学習で攻略する(+雑記)

以前書いた記事の続き
kurupical.hatenablog.com
前回は、cartpoleのゲームをテスト的に動かしてみました。

前回に続いて、cartpoleのゲームを強化学習(DQN)で攻略することを目標にプログラムを作ってみました。

ソース構成の考察

ソース構成は以下です。

  • agent.py
    ゲームの操作を行う。
  • dqn.py
    DQNのネットワーク構造を定義。
  • organizer.py
    ゲーム(今回はcartpole)の進行役。
  • run.py
    学習/推論を行うプログラム。
    1000回学習→10回プレイ、を繰り返しさせています

プログラム作成

全体的に意識したこ

  • コメント多めに 自分でも何やってるかわからなくなる時があるので…。

思想

  • 探索と活用の割合(agent.pyのpolicyメソッド)
    今わかる良い方法を採用するのか、それとも更に良い方法を探すのかのバランス。
    →ε-greedy法 + Annealingを採用。 εの確率でランダムに行動(探索)し、1-εの確率で今わかっている良い方法を採用(活用)します。
    Annealingとは、試行回数に比例してεを低減させていくことです。

動かしてみた

前回の実績より
棒を立てられたフレーム数

  • ランダムに動かす:平均20フレーム
  • 棒の傾きと逆方向に動かす:平均36フレーム
  • 私が作成した強化学習プログラム:平均9フレーム

→ランダムに動かすよりヘボい性能…。どっかバグってますね。。
しばらくこいつと戯れることになりそうです。

その他

ソースコード

ソースコードは以下で公開しています。
github.com

雑記

NHKの番組

NHKがAIの番組をやっていたのですが結構おもろいです。ぜひご覧ください。
www.nhk.or.jp

第1回で気になったところ

  • 技術的要素
    • 敵対的ネットワーク(GAN)
      聞いたことはあったのですがまだ触れてないです。概要だけでも勉強しておきたいです。
  • 人工知能的要素
    • 人はなぜ人たりうるのか?
      好奇心、三大欲求、種の存続に動機付けされている?ロボットにはそれがない?
    • 言葉の意味理解に身体は必要か?
      • 小説家は自分が体験していないこと(殺人とか)も想像して書ける

とあるエンジニアさんのはなし

体重計に乗るのがめんどくさい→ベッドを体重計にしてやれ!って言ってたエンジニアの人がいた。
しかも実際にベッドにマイコンとか設置しちゃったとか。
エンジニアの鏡ですね。
「3回同じことやったら自動化ですよ」って言ってたのがすごい印象に残りました。

<その他>10/4 小ネタ(読書会/AIが演奏会)

読書会やりました

10/4 19:00-22:00に、ゼロから作るDeepLearningの読書会をやりました。
参加者6人でした。
第3章4節まで進みました。

以下、質問について回答いたします。

  • 活性化関数にReLUとかSigmoidとか出てきたけど結局何を使えばいいの?
    www.procrasist.com
    qiita.com

    結論からいうと、LeakyReLU、PReLUが強いみたいです。
    ReLUがいい理由について、2個めのサイトの「スパース性がある」という表現がいいですね!

    ReLUは、f(x)<0ならば0に押し込めるのに対して、LeakyLeRUはf(x)<0ならばf(x)に定数a(0<a<1)を乗算するみたいです。

    数式でいうと

    • ReLUは max(0, f(x))です。
    • LeakyReLUは、max(f(x)*a, f(x))です。※a:定数。任意の値を設定

    Sigmoid関数には勾配消失問題があります。(ゼロから作るDeepLearning P.180を参照。)

今、強化学習(DQN)の活性化関数で何を使うかを考察していて勉強していたので、調べたことを書いてみました。

AI関連でびっくりしたニュース

AIが演奏会!?

ニュース記事
style.nikkei.com

公式サイト DCEXPO2017 – コンテンツ技術をテーマとした国際イベント

人間がひとつの楽器を演奏すると、それを聞いたAIが即興でアンサンブルするみたいです。
この話を聞いてめっちゃ感動しました。行ってみたいけど、東京か…。

<基礎学習>10/1-3 強化学習 OpenAI Gymでcartpoleゲームのチュートリアル

今は強化学習を勉強しています。
AlphaGoのアルゴリズムにも使われている激アツなやつです。

強化学習を勉強する目的

  • ロボットの動作を強化学習でやってみたい(知人の手伝い)
  • 投資で強化学習を動かしてみたい(自分がやってるやつ)

今日書くこと

以下について、参考にしたサイトを主に紹介します。

やったこ

1.勉強方法の考察

ちまたで流行っているDeep Q-Learning(DQN)をやりたい!
と思っていろいろ勉強したけどわけがわかりません。
以下サイトにたどり着きました。

qiita.com

ここから、実際にpongというゲームをDQNで学習しているという以下サイトを読み、プログラムを動かそうとしました。
postd.cc
が、Pythonのバージョンが違うのか動きません。

知人に相談したところ、「DQNDQN言うけど、お前まずQ-Learningって何かわかる?」と言われ、ちんぷんかんぷんな答えをしてしまいました。

2.理論の勉強

知人のアドバイスに基づき、Q-Learningがあって、Q-LearningのどこがDeep(ニューラルネットワーク化されてるの?)という疑問をまずは解決することにしました。

2-1.Q-Learning

qiita.com

「Q-Learning」のところを読んで、その場にいた別の人とディスカッションすること1時間。
よーやくなんとなくわかりました。

「状況」と「取れる行動」と「その行動をとった時の期待値」のテーブル(Q-Table)が、すべての状況・取れる行動・取った時の期待値に対して存在していて、それをチューニングするみたいです…。
テーブルの数めっちゃ膨大。
囲碁の盤面が1919、それぞれのマスが(白、黒、何もなし)の3通りだから、3**(1919)通りの状況(Q-Table)とその時に取れる行動があるわけですよね…。
AlphaGoではすべてのテーブルを用意するわけではなく、前段階である程度パターンを刈り取っているみたいですが。

2-2.Deep Q-Learning(DQN)

DQNは、Q-LearningのどこがDeepになっているの?→TD誤差を誤差逆伝播している
というのはなんとなくわかったのですが、式変形がわからない。
「まず、Q(s,a)をニューラルネットワーク化します」の下にある式変形の過程が理解できません。今、考え中です。

3.強化学習の実装

最近は理論の勉強とか業界知識の勉強ばかりで、実装をしていませんでした。
なので、手を動かします。
OpenAI Gymに前々から興味があったので、やってみます。

3-1.OpenAI Gymとは

OpenAI Gymとは、一言でいうとAIの性能テストができるところです。
いろんなゲームに対して自分が作ったAIがどれだけの性能が出るのか、試せます。
そのための基盤として、様々なゲームが用意されています。(多分)

3-2.OpenAI Gymのチュートリアル

ゲームはCartPoleをすることにしました。
小学校御用達の「指先でほうきを何秒立てられるか」ゲームのようなイメージですね。

www.youtube.com

導入にあたっては以下のサイトを参考にしました。 ◆OpenAI Gymのインストール(英語)
github.com

動かしてみると以下のようなエラーがでました

OSError: /home/owner/anaconda3/bin/../lib/libstdcsi++.so.6: version `GLIBCXX_3.4.20' not found (required by /home/owner/anaconda3/lib/python3.6/site-packages/atari_py/ale_interface/build/libale_c.so)

ググったら以下サイトが出てきました。
askubuntu.com
僕はAnacondaを使っているのですが、Anacondaにlibgccを入れないとダメみたいです。pip installじゃないです。以下コマンドを打つとちゃんと動きました。
conda install libgcc

◆CartPoleの動作 futurismo.biz
CartPoleは特に問題なく動作しました。

使い方を把握するため、ちょっと応用して2通りを試してみました

パターン1:ランダムに動かす

import gym
env = gym.make('CartPole-v0')
observation = env.reset()
count = 0
epoch_count = 0
total_count = 0
while epoch_count < 20:
    env.render() # 現在の状況を画面表示する
    # ランダムに動かす
    observation, reward, done, info = env.step(env.action_space.sample())

    count += 1
    if done:
        print("Episode finished after {} timesteps".format(count+1))
        total_count += count
        count = 0
        observation = env.reset()
        epoch_count += 1

print("試行回数:{0}, 平均:{1}".format(epoch_count, total_count/epoch_count))

結果
f:id:kurupical:20171004160138p:plain:w400

パターン2:棒の傾きと逆方向に動かす

import gym
env = gym.make('CartPole-v0')
observation = env.reset()
count = 0
epoch_count = 0
total_count = 0
while epoch_count < 20:
    env.render() # 現在の状況を画面表示する

    # 傾いている方と逆に動かす
    if observation[1] > 0:
        observation, reward, done, info = env.step(0)
    else:
        observation, reward, done, info = env.step(1)
    count += 1
    if done:
        print("Episode finished after {} timesteps".format(count+1))
        total_count += count
        count = 0
        observation = env.reset()
        epoch_count += 1

print("試行回数:{0}, 平均:{1}".format(epoch_count, total_count/epoch_count))

結果
f:id:kurupical:20171004160029p:plain:w400

ランダムに動かすより、ちょっと動きがよくなりました。

今後

ただ人様のサイトをペタペタはっているだけのブログになりました。
次回は、強化学習をさせてみてどうだったかをブログにアップします。