<基礎学習>10/1-3 強化学習 OpenAI Gymでcartpoleゲームのチュートリアル

今は強化学習を勉強しています。
AlphaGoのアルゴリズムにも使われている激アツなやつです。

強化学習を勉強する目的

  • ロボットの動作を強化学習でやってみたい(知人の手伝い)
  • 投資で強化学習を動かしてみたい(自分がやってるやつ)

今日書くこと

以下について、参考にしたサイトを主に紹介します。

やったこ

1.勉強方法の考察

ちまたで流行っているDeep Q-Learning(DQN)をやりたい!
と思っていろいろ勉強したけどわけがわかりません。
以下サイトにたどり着きました。

qiita.com

ここから、実際にpongというゲームをDQNで学習しているという以下サイトを読み、プログラムを動かそうとしました。
postd.cc
が、Pythonのバージョンが違うのか動きません。

知人に相談したところ、「DQNDQN言うけど、お前まずQ-Learningって何かわかる?」と言われ、ちんぷんかんぷんな答えをしてしまいました。

2.理論の勉強

知人のアドバイスに基づき、Q-Learningがあって、Q-LearningのどこがDeep(ニューラルネットワーク化されてるの?)という疑問をまずは解決することにしました。

2-1.Q-Learning

qiita.com

「Q-Learning」のところを読んで、その場にいた別の人とディスカッションすること1時間。
よーやくなんとなくわかりました。

「状況」と「取れる行動」と「その行動をとった時の期待値」のテーブル(Q-Table)が、すべての状況・取れる行動・取った時の期待値に対して存在していて、それをチューニングするみたいです…。
テーブルの数めっちゃ膨大。
囲碁の盤面が1919、それぞれのマスが(白、黒、何もなし)の3通りだから、3**(1919)通りの状況(Q-Table)とその時に取れる行動があるわけですよね…。
AlphaGoではすべてのテーブルを用意するわけではなく、前段階である程度パターンを刈り取っているみたいですが。

2-2.Deep Q-Learning(DQN)

DQNは、Q-LearningのどこがDeepになっているの?→TD誤差を誤差逆伝播している
というのはなんとなくわかったのですが、式変形がわからない。
「まず、Q(s,a)をニューラルネットワーク化します」の下にある式変形の過程が理解できません。今、考え中です。

3.強化学習の実装

最近は理論の勉強とか業界知識の勉強ばかりで、実装をしていませんでした。
なので、手を動かします。
OpenAI Gymに前々から興味があったので、やってみます。

3-1.OpenAI Gymとは

OpenAI Gymとは、一言でいうとAIの性能テストができるところです。
いろんなゲームに対して自分が作ったAIがどれだけの性能が出るのか、試せます。
そのための基盤として、様々なゲームが用意されています。(多分)

3-2.OpenAI Gymのチュートリアル

ゲームはCartPoleをすることにしました。
小学校御用達の「指先でほうきを何秒立てられるか」ゲームのようなイメージですね。

www.youtube.com

導入にあたっては以下のサイトを参考にしました。 ◆OpenAI Gymのインストール(英語)
github.com

動かしてみると以下のようなエラーがでました

OSError: /home/owner/anaconda3/bin/../lib/libstdcsi++.so.6: version `GLIBCXX_3.4.20' not found (required by /home/owner/anaconda3/lib/python3.6/site-packages/atari_py/ale_interface/build/libale_c.so)

ググったら以下サイトが出てきました。
askubuntu.com
僕はAnacondaを使っているのですが、Anacondaにlibgccを入れないとダメみたいです。pip installじゃないです。以下コマンドを打つとちゃんと動きました。
conda install libgcc

◆CartPoleの動作 futurismo.biz
CartPoleは特に問題なく動作しました。

使い方を把握するため、ちょっと応用して2通りを試してみました

パターン1:ランダムに動かす

import gym
env = gym.make('CartPole-v0')
observation = env.reset()
count = 0
epoch_count = 0
total_count = 0
while epoch_count < 20:
    env.render() # 現在の状況を画面表示する
    # ランダムに動かす
    observation, reward, done, info = env.step(env.action_space.sample())

    count += 1
    if done:
        print("Episode finished after {} timesteps".format(count+1))
        total_count += count
        count = 0
        observation = env.reset()
        epoch_count += 1

print("試行回数:{0}, 平均:{1}".format(epoch_count, total_count/epoch_count))

結果
f:id:kurupical:20171004160138p:plain:w400

パターン2:棒の傾きと逆方向に動かす

import gym
env = gym.make('CartPole-v0')
observation = env.reset()
count = 0
epoch_count = 0
total_count = 0
while epoch_count < 20:
    env.render() # 現在の状況を画面表示する

    # 傾いている方と逆に動かす
    if observation[1] > 0:
        observation, reward, done, info = env.step(0)
    else:
        observation, reward, done, info = env.step(1)
    count += 1
    if done:
        print("Episode finished after {} timesteps".format(count+1))
        total_count += count
        count = 0
        observation = env.reset()
        epoch_count += 1

print("試行回数:{0}, 平均:{1}".format(epoch_count, total_count/epoch_count))

結果
f:id:kurupical:20171004160029p:plain:w400

ランダムに動かすより、ちょっと動きがよくなりました。

今後

ただ人様のサイトをペタペタはっているだけのブログになりました。
次回は、強化学習をさせてみてどうだったかをブログにアップします。

<その他>9/28 大阪pythonの会に参加+LTやってみた

退職関係でバタバタしたり卓球の試合でたりでバタバタして、全然更新できていませんでした。。

9/28に、大阪pythonの会に参加しました。
osakapython.connpass.com

LTやってみた

LT(ライトニングトーク)というものをやってみたので、スライドあげときます。
(Ubuntuに標準であるLibreOffice Impressをslideshareにアップするの結構苦労しました…)

https://www.slideshare.net/secret/JeZAP8SaIlNovc

話を聞いてみて

びっくりしたこ

  • Faas(Function As a Service)
    サーバレスコンピューティング。
    もはやサーバすら立てない。
    プログラム(function)をサーバに置いて、それを呼ぶときだけサーバが立ち上がる(?)
    Docker的な感じでしょうか?(Dockerよく知りませんが)
    初めて知って結構感動しました

その他

  • 自分と同じ投資テーマで発表している人がいて、勉強になりました。

全体的に

  • LTしてみてよかったです。技術的な話を全くせずだったとか、反省はあったけど…
  • pythonの話もさることながら、投資の話ができたのが面白かった。笑 主に仮想通貨。
  • 証券会社の人とか公務員の人とか、本業以外の人が一定数いた。
  • 読書会第2回やります
    前回は、4人に対して8人申し込み→当日来たのが一人という感じだったので定員を増やしました笑
    osaka-prg-school.connpass.com

<基礎学習>9/21-9/23 AI白書(〜1.8)の読書メモ

AIの業界についても勉強しなきゃいけないなと思い、AI白書を読んでいます。
1.1〜1.8の中で気になったところをメモ。

1.DeepLearningの分野と実用性

分野

実用性

2.AlphaGo

最近話題になった囲碁のAI。

仕組み

AlphaGoは以下構成で成り立っている。

大量のプロ棋士棋譜ディープラーニングで学習させ、ある程度の強さのプログラムを作る。そこから、そのプログラム同士を何度も対局させ強化学習することによって更に強く。

3.ハードウェア

主に、組み込み系のところが気になりました。

書いてあったこと

  • 計算資源の乏しいデバイスに推論をさせるために…
    • 専用チップの開発
    • 32bitではなく16bit、8bitで計算するための仕組みを構築

全体を通して思ったこと

<基礎学習>9/19-9/20 物体検出(SSD_Keras)をやってみた★9/22追記

今日書くこと

  • SSD_Kerasで、学習→推論ができるまで

SSD_Kerasを触った経緯

(「いきさつ」と打って変換すると「経緯」に変換されてびっくり。どうでもいいですね)

知人のお手伝いで物体検出をやっていて、その中でいいフレームワーク?がないかということで探していたところSSD_Kerasを見つけました。
物体検出のイメージとしてはこんな感じです。
f:id:kurupical:20170920195140p:plain:w500
ハイキューを彷彿とさせる絵面ですね

参考にしたサイト

ai-coordinator.jp

自分が詰まったところメモ

  • Trainingするソースどれやねん…
    SSD_training.ipynb。jupiterNotebookの形式らしいので、これを.pyに変換しました。
    9/22追記:ipynb→pyの変換
    以下のコマンドを叩いてください。
jupyter nbconvert --to python ファイル名.ipynb  
  • 学習終わらん…(Epoch 1/30でずっと止まる)
    →batch_size > テスト画像数になると駄目みたいで、ずっと止まります。具体的には以下。
gen = Generator(gt, bbox_util, 16, 'frames/',
                train_keys, val_keys,
                (input_shape[0], input_shape[1]), do_crop=False)

230行目あたりでGeneratorを生成する時に指定している第3引数がbatch_sizeです。
batch_sizeは、1回の学習に使うデータの数のことです。
デフォルトは16になっていますが、必要に応じて合わせる必要があります。 テストデータは1枚としていたので、ここを1に足す必要があります。

9/22追記:学習データの作り方

  • アノテーションデータの作成
    「物体検出用SSD_Kerasで使える学習モデルの作成方法」で言及されたツール(http://qiita.com/slowsingle/items/9006383145a650c84cb0)を使います。(結果がXML形式で出力されます)
    出力されたXMLファイルを、PASCAL_VOC/get_data_from_XML.pyを使ってpklファイルに書き込みます。
    同プログラムの下の方に書いてあるところを環境に合わせて変更してください。
## example on how to use it
import pickle
data = XML_preprocessor('testxml/').data
pickle.dump(data,open('gt_pascal.pkl','wb'))
  • アノテーションデータの準備①-XMLファイルの作成
    生成されたgt_pascal.pklをルートディレクトリ(SSD_training.py等プログラムがあるところ)に格納してください。
  • アノテーションデータの準備②-テストデータが格納されているパスを指定
    テストデータに使う画像のpathを、232行目あたりのpath_prefix、233行目あたりのGeneratorの4つ目の引数で指定してください。
  • 学習
    SSD_training.py(※ssd_training.pyではありません)を流してください。
    学習結果は、/checkpointsに出力されます。(※学習前にフォルダを作成しておいてください)
  • 推論の準備① - タグの編集
    SSD.py(※ssd.pyではありません)を編集します。
    デフォルトはVOC2007のタグ付けになっています。
voc_classes = ['Aeroplane', 'Bicycle', 'Bird', 'Boat', 'Bottle',
               'Bus', 'Car', 'Cat', 'Chair', 'Cow', 'Diningtable',
               'Dog', 'Horse','Motorbike', 'Person', 'Pottedplant',
               'Sheep', 'Sofa', 'Train', 'Tvmonitor']  ```
  • 推論の準備② - 読み込む画像の編集
    提供されているプログラムは、パスを直書きしています。
    手間なので、フォルダの中のすべてのファイルが読み込まれるように変更しました。
    以下は、/framesに画像を格納する場合の例です。
files = glob("frames/*.jpg")
for file in files:
    img = image.load_img(file, target_size=(300, 300))
    img = image.img_to_array(img)
    images.append(imread(file))
    inputs.append(img.copy())
inputs = preprocess_input(np.array(inputs))
  • 推論
    学習結果をSSD.pyに読み込ませることで、自分が作ったネットワークと画像で推論ができます。

動かしてみた

f:id:kurupical:20170920200622p:plain:w500

できた!
あとは、学習データを増やしてみて、実用的なレベルまで持って行きたいです。

感想

  • インターネットすごい。こんな難しいこともググればすぐ出来るようになるなんて…。

所要時間

5時間程度でした。

<その他>9/18 「ゼロから作るDeepLearning」の読書会やってみた

osaka-prg-school.connpass.com

9/18に、書籍「ゼロから作るDeepLearning」の読書会を行ったので、メモ。 読書会は開催・参加ともに初めてでした。

開催の意図

  • DeepLearningやる仲間が欲しかった
  • DeepLearningを教えてみたかった

会場

いつも参加しているもくもく会のスペースをお借りすることができました。

読書会の進め方

  1. 15ページ〜20ページをその場で全員で黙読(1ページ/分)
  2. 書いてあったことの要約、分からなかったことをシェア

出た質問

  • 活性化関数として選ばれる「Sigmoid関数」「ReLU関数」はどう使い分けるの?
    →損失関数としてCrossEntropyを使う場合、活性化関数にSigmoid関数を使うのが相性がいいらしいです。
     でも、勾配消失するからSigmoidはあまりよくない?ReLUが基本的にはいいみたいです。
  • 「活性化関数が線形関数だと層を深くする意味がなくなる」が納得いかなかった
    →ちゃんと答えられず。

感想

  • 参加者ドタキャンを計算できなかったのが反省点です。定員4人、申込8人に対して最後来るの1人って笑
    次は多めに募集しておきたいです。
  • 上記のスタイルだと、構成するメンバーは2人〜3人が最適なのかなと思いました。
    6人参加だと、2人×3グループに分けるとか?

<基礎学習>9/14-9/16 AutoEncoder - あずにゃん、唯、りんごの特徴量を抽出する(2)

画像の特徴量分類

前回の続きです。
りんごの画像10枚、あずにゃん3枚、唯3枚を入力データとし、2次元に圧縮(特徴量抽出)しました。
f:id:kurupical:20170917185602p:plain:w400

赤:りんご
青:あずにゃん
黄:唯

人間とりんごを区別できました笑。

値動き分類

時価総額50億以下の銘柄の「過去300日の値動き」を2次元に圧縮してplotしてみました。
青色の点が、5日以内に+5%以上値上がりする銘柄。
黒色の点が、上記以外。
f:id:kurupical:20170917190937p:plain:w400

2次元では特徴量をつかめませんでした。

今回勉強になったこと

  • TensorFlowの理解が進みました!(重み・バイアスを取得する方法がわかった、sess.run()のおまじないが少しわかった、など…)
  • いいブログを見つけました。(AIだけでなく株式投資の考え方もめちゃくちゃ参考になります。)
    we.love-profit.com

雑感

  • 株価を分析するには、説明変数が圧倒的に不足していますね。。

<基礎学習>9/13 AutoEncoder - あずにゃん、唯、りんごの特徴量を抽出する

目次

  1. まえがき
  2. 概要
  3. AutoEncoderとは
  4. 今回のテスト
  5. その他

1.まえがき

僕はなぜ株のAIを作ろうと思ったのか?
根本は「AIを勉強する」ことだと思い直しました。

根本の欲求を満たすために、
①AI関連の技術を勉強し実装する(コードの綺麗さ度外視)
②株に当てはめて考えてみる
の流れで、いろんな技術を触ってみようと思います。
ミソは①。とにかくスピード重視、ソースコード汚いの大歓迎で新しいものを触りまくります。
今回は、その第一弾。AutoEncoderを触ってみました。
画像認識のお手伝いの時に教えてもらっていろいろ触っていたのですが、株にも応用してみます。

2.概要

仮説

株価がN%以上UPする前の値動き、N%以上DOWNする前の値動きって何か特徴あるんじゃない?

検証

AutoEncoderを使って、値動きデータを2次元に(むりやり)圧縮してプロット。
N%UPの集団とN%DOWNの点が離れている=特徴あり!

作業フロー

①簡単な実装:唯、あずにゃん、りんごの画像を学習させ、特徴を2次元にプロットする ②本番実装:N%以上UPする前の値動きおよびN%以上DOWNする前の値動きを学習させ、特徴を2次元にプロットする

3.AutoEncoderとは

  • 教師なし学習(教師データは入力層)
  • 入力データを圧縮→正確に復元できるようニューラルネットワークが学習する
  • 入力データを次元圧縮した値が特徴量になる
  • 概念としては機械学習の主成分分析に似てます(たぶん)

4.今回のテスト

今日は、簡単な実装をしてみました。

入力層

f:id:kurupical:20170913224600p:plain:w400
画像9枚を入力データとします。
・内容:りんご3枚、唯3枚、あずにゃん3枚。(本当はもっと取るべきなのですがめんどくさかった)
入力層の次元数は3000000次元です。(画像はプログラム内で1000*1000pxに圧縮するため、縦横で1000000pxです。さらに1pxごとにRGBの値があるため、入力層は10000000×3=3000000次元になります。)

圧縮

今回は2次元に圧縮します(=隠れニューロン数が2)。可視化のため2次元にしていますが、本当はもっと高次元にします。

結果

今回の例でいうと、3000000次元を2次元に圧縮し、3000000次元に復元する。その復元の精度を高めるための学習をするということになります。
上記の学習を行ったネットワークを使って、入力データ(3000000次元)を2次元に圧縮します。 その結果をplotしてみます。

…間違って消してしまったので、再学習させてます。結果はまた明日。

5.その他

ソースコード

以下にAutoEncoderのソース公開しています。
(テスト的に書いたベタ書きソースなので信じられないくらい汚いです)
github.com

所感

とりあえず、迷走するだけしてみようかなと思います。。笑