2017-09-12

12　学習とバックテスト→一区切りつきました

学習→トレード

よい結果を残したパラメータを使って、「時価総額＜２０億」の銘柄2012年〜2016年のデータを20万回食わせてみました。
そして2017年1月〜7月でトレードさせてみたのですが、利益は出ず。
手数料込みで▲1.1%程度の成績でした。

今後

ここまで1ヶ月半、結構時間を費やしてきましたが成果は出ませんでした。
いろいろ粘りましたが、僕の今の発想や今の手法では勝てないんだろうと思います。
ちょっと一旦距離を置きます。

今後確実にやりたいこと

一区切りついた感じがするので、どこかの時間で振り返ろうと思います。反省の多い１ヶ月半だったな…。
信ぴょう性のある「先行事例」「論文」を読み漁ります。（個人のブログじゃなくて、ちゃんとした論文を）
我流でやるのはやっぱり良くない。

今後考えること

株予測に費やす時間を減らすか？
(根本の目的は「AIの勉強」なので、自然言語処理など別の分野も触ってみたい）
強化学習をやってみる？

その他ひとりごと

今回の開発で、AI関係なく投資のシュミレーションができる環境が整いました。(過去２００営業日で高値超えたあとの値動きのデータを時価総額別に集計する、など…）
いろいろな分析に使えそうです。
「AIにデータを食わせれば結果が出る」といった、AIに0から100までやらせるには時代が早すぎ？
投資の世界では、AIはあくまで人間の判断を補助するレベルでしかないのかも？
仮説→検証のサイクルが遅すぎる。

2017-09-08

＜株進捗＞9/8　有望な学習モデルあらわる！

過去４００日の値動きから翌５日、過去２００日の値動きから翌３日、などいろいろな数字をチューニングした１６０パターンで学習テストしてみます。
次のブログでは良かったパラメータランキングを出してみようと思います。

6:50〜19:30の間処理を行い、出力された学習モデルの検証結果をひとつずつ確認していきました。

その中でなかなかよかった学習モデルが以下です。

１．パラメータ：

過去400日のデータから10日先のデータを予想。
3％以上上がる（＝「買い」タイミング）かどうかを予想。
隠れ層：4　1層あたりのノード数：30

２．検証結果：

2017-09-08 11:00:18,,「買い」タイミングで正しく買えた率:0.506053268765 (209件/413)
2017-09-08 11:00:18,,「買い」でないタイミングで誤って買った率:0.4775　(191件/400)

★評価：
413回あるチャンスのうち209回は＋3％の利益を取れていて、なかなかいい成績だとおもいます。
誤判断してしまった191回の損益次第では、十分利益的です。

今回の処理で240種類のパラメータのうち上記を含み45の学習が終了したので、残り192種類です。
さらにいい結果のものがでるのを楽しみにしています。

2.その他

謎現象

学習の処理を13時間くらい動かしっぱなしにすると、「強制終了」と出て処理が止まってしまいます。
f:id:kurupical:20170908221645p:plain:w400
このエラーのせいで、1日中放置してぶん回せないのが不便です…。
ぐぐってもあまり有益な情報は出てこず。誰か教えてください＞＜

ブログリンク貼ってみた

自分主催の読書会の案内のなかに、こっそりブログのリンク貼ってみました。
osaka-prg-school.connpass.com

ソースコード公開

以下でソースコード公開しています。
github.com

2017-09-07

＜株進捗＞9/7　学習の途中経過（３６０銘柄中５０銘柄完了）

過去４００日の値動きから翌５日、過去２００日の値動きから翌３日、などいろいろな数字をチューニングした１６０パターンで学習テストしてみます。
次のブログでは良かったパラメータランキングを出してみようと思います。

と書いていました。
（結局パターンは３２０に増えました。）
ブログを書いたあと、処理を流したのですが、メモリ不足で止まっていました。夜動かして翌朝は動いてたんですが…。
なので、５０パターンくらいしか学習テストできていません。

所見

層は4,8,15の3つでテストしました。15にすると、あまり良い結果が得られませんでした。
過去N日の値動きから翌M日　のNの値を大きくすると、あまり良い結果が得られない傾向ありでした。

メモ：試した５０パターンのうち比較的良かったデータ

①＜４層、隠れノード３０＞＜過去２００日→翌５日＞＜売買のしきい値：３％＞
- 「買い」タイミングで正しく「買い」予想できた率：　67/394 = 17%
- 「買い」でないタイミングで誤って「買い」予想した率：　41/108 = 38%
②＜８層、隠れノード１００＞＜過去２００日→翌１０日＞＜売買のしきい値：３％＞
- 「買い」タイミングで正しく「買い」予想できた率：　109/575 = 19%
- 「買い」でないタイミングで誤って「買い」予想した率：　37/146 = 25%
③＜８層、隠れノード１００＞＜過去３００日→翌５日＞＜売買のしきい値：１０％＞
- 「買い」タイミングで正しく「買い」予想できた率：　7/32 = 22%
- 「買い」でないタイミングで誤って「買い」予想した率：　5/12 = 42%

①②はそれぞれ１０８回、１４６回取引しているのに対して③は１２回しか取引していません。
が、③は１０％以上の上げを的中率２２％で当てています。

どっちがいいのか・・・と言われると、売買シュミレーションにかけてみてどれだけ利益でるかを試してみるしかないですね。
感覚的には、②は①の上位互換。③と②はそれぞれ性質が異なる。んじゃないかと思ってます。
③は一発あてちゃうタイプ、②はこつこつタイプって感じでしょうか。
①②のように取引回数を重ねると手数料がバカにならないので、１回取引あたりの利益率はあげたいところですが・・・。

あと３００パターンも学習させて結果を見ます！
そのあと、よい結果を残したパラメータ（ベスト５くらい）に対して、さらに大量の銘柄で学習させてみてどうなるかをためします。

2.その他

画像認識、はじめました

今、知り合いの手伝いで画像認識も手をつけています。今やっていることはAutoEncoderの実装。
例えるなら…日本語の再和訳がどれだけ正しくできるのか、精度を上げていくようなイメージでしょうか。

日本語を英訳し、英訳したものを再度日本語訳するともとの日本語に戻るかと言われると、そんなことはないと思います。
「これはペンだよ」　→　"This is a pen.“　→　「これはペンです。」
みたいな感じで。

コレをなんとか、
「これはペンだよ」　→　"★"　→　「これはペンだよ」となるような英語を探すイメージです。

実際には、りんごの画像（50px×50px）→　100次元の行列　→　りんごの画像（50px×50px）になります。

「りんごの画像」　→　"★"　→　「りんごの画像」
となるような100次元の行列★を学習する、ということをやっています。

なぜそんなよくわからないことをするのか？
また機会があれば説明しますが、一言で言うなら「特徴量抽出」を行うためです。
（自分もちゃんと理解していないので難しい言葉で逃げました。）

ソースコード公開しています

github.com

2017-09-06

＜株進捗＞9/5-9/6　プログラムレビュー、パラメータチューニングの実装

僕が６月くらいからずっとお世話になってるもくもく会で、自分のAIプログラムの進捗の話をしました。
この日は結構盛り上がりました。
※もくもく会はこれです↓
【大阪・ディープラーニング】Hackers' Salon 09/23【もくもく会】 - connpass

僕が話したこと

現状
- 過去N日の値動きを取り込み→次の5日で10%以上アップ(買いサイン)、-10%以下ダウン(売りサイン)、その他(サインなし)になる確率を予想
- 銘柄の学習がうまく行かない。全部「サインなし」になる
- １次関数〜４次関数でテストするとそこそこの精度が出る
- パフォーマンスチューニングはこれから

話しあったこと

考えられる原因と、原因に対する対策は４つ
- プログラムミス
  １次関数から４次関数は予想できていることから、ある程度動いてそう
- ハイパーパラメータの調整
  （対策）パラメータを調整して回す。
- 損失関数の誤り現在は、出力層がSoftmaxで損失関数はCrossEntropyですが、CrossEntropyは少し問題があると思ってます。例えば、答えが「１０％以上」の学習データがあった場合、次の２つの間違った予想は、評価（損失関数の値）は同じ。「①１０％以上である＝５０％、−１０％以下である＝５０％」　「②１０％以上である＝５０％、ー１０％〜＋１０％である＝５０％」 ①より②のほうが、実態に近い予想をしていると思いますが、①と②は同じ評価がされてしまいます。 →（対策）新しい損失関数を探す（論文読むなど・・・）
- そもそも相関がないより予想がしやすいよう、「取り込む値動きの期間を長くする」「予想する期間を短くする」

2.レビュー受けての感想

自分の考えが浅い
この話をしたとき、実際に作っている自分より相談受けてもらってる人のほうが真剣に考えていました。
自分は、ある程度話して「ま、いっか！」と諦めかけていたのに。笑深く考える習慣が全然身についてないなと反省しました。。
「考えられる原因と、原因に対する対策」の考え方がAIとか機械学習では必要！
AI機械学習関係の開発は、「何が悪いかわからないけどちゃんと動かない…。」なんてことが普通のプログラミング以上にあると思います。そんなときはこの視点で冷静に見ようと思います。

3.やったこと

各種パラメータが設定されているファイルを設定に従って自動生成する機能など、検証が簡単にできる仕組み作りを進めました。

そしていざテスト。

１次関数〜４次関数の予想

y=f(x)（X=1…200)に基づき、y=f(x)(X=201…205)の最大値を予想。
３％を超えれば「Buy」、ー３％を下回れば「Sell」、それ以外は「Stay」

１００００回学習させた時の損失関数の推移
f:id:kurupical:20170906223803p:plain:w400

出力結果

2017-09-06 18:51:07,,(予想/結果)
2017-09-06 18:51:07,,(Buy:N%以上up/Sell:N%以上down/Stay:それ以外)
2017-09-06 18:51:07,,(Sell/Sell):356.0
2017-09-06 18:51:07,,(Sell/Stay):124.0
2017-09-06 18:51:07,,(Sell/Buy):68.0
2017-09-06 18:51:07,,(Stay/Sell):16.0
2017-09-06 18:51:07,,(Stay/Stay):644.0
2017-09-06 18:51:07,,(Stay/Buy):0.0
2017-09-06 18:51:07,,(Buy/Sell):28.0
2017-09-06 18:51:07,,(Buy/Stay):0.0
2017-09-06 18:51:07,,(Buy/Buy):1144.0

予想＝結果になっているのが、(Sell/Sell)356 + (Stay/Stay)644 + (Buy/Buy)1144 = 2144件。
全体が2380件なので、だいたい90%の正解率です。
Buy/Sellもちゃんと予想できてます。
１次関数〜４次関数に近似する銘柄がもしあれば、このAIはボロ儲けしてくれます。

銘柄の予想

過去２００日の値動きに基づき、翌５日の値動きの最大値を予想。
３％を超えれば「Buy」、ー３％を下回れば「Sell」、それ以外は「Stay」

１００００回学習させた時の損失関数の推移
f:id:kurupical:20170906224326p:plain:w400

出力結果

2017-09-06 20:45:33,,(予想/結果)
2017-09-06 20:45:33,,(Buy:N%以上up/Sell:N%以上down/Stay:それ以外)
2017-09-06 20:45:33,,(Sell/Sell):0.0
2017-09-06 20:45:33,,(Sell/Stay):0.0
2017-09-06 20:45:33,,(Sell/Buy):0.0
2017-09-06 20:45:33,,(Stay/Sell):36.0
2017-09-06 20:45:33,,(Stay/Stay):1327.0
2017-09-06 20:45:33,,(Stay/Buy):345.0
2017-09-06 20:45:33,,(Buy/Sell):6.0
2017-09-06 20:45:33,,(Buy/Stay):22.0
2017-09-06 20:45:33,,(Buy/Buy):49.0

予想＝結果になっているのが、(Stay/Stay)1327 + (Buy/Buy)49 = 1376件。
全体が1785件なので、正解率は77%です。
しかし、正解して欲しいのは「Buy」もしくは「Sell」です。
（「Stay」を正解しても、売買をしないので利益にならない）

「Buy」の正解率は…
正解件数 : (Buy/Buy) 49件
全体件数 : (Stay/Buy) 345件 + (Buy/Buy) 49件 = 394件
つまり、394回の買いどころがあったのに49回しか買えてないということになります。
また、買わなくていいのに買っちゃってるのが(Buy/Sell) 6件 + (Buy/Stay) 22件 = 28件あります。

この精度の予想では、まだまだ利益でなさそうですね・・・。

過去４００日の値動きから翌５日、過去２００日の値動きから翌３日、などいろいろな数字をチューニングした１６０パターンで学習テストしてみます。
次のブログでは良かったパラメータランキングを出してみようと思います。
結果が良かったパラメータを使って、今度は３０銘柄ぐらい学習させてみようと思います。

4.その他

書籍「ゼロから作るDeepLearning」の読書会を開催することになりました。
osaka-prg-school.connpass.com
読書会行ったことありませんし、もくもく会以外の勉強会に行ったことありません。が、どうしてもやってみたかったので。
今からめっちゃ緊張しますが、楽しみでもあります！

株予想プログラムのソースコード以下で公開しています。
github.com

2017-09-04

＜株進捗＞9/3　株価の3分類予想(+10%over / -10%〜+10% / -10%under)

昨日はなんとなく６分類にしていました。
よく考えると、実際は「買う」「何もしない」「売る」の３つさえできればよいです。
具体的には、予想値が「＋１０％超え」なら買い、「ー１０％未満」なら売り、それ以外は何もしない。

ということで、値動きを「〜ー１０％」「ー１０％〜＋１０％」「＋１０％〜」の３つに分類することを最終目標にしました。

2.学習モデルの構築

Input: 1銘柄N日分のデータ
Output: 先30日の終値の最大値、最小値が「〜ー１０％」「ー１０％〜＋１０％」「＋１０％〜」になる確率

出力層にはソフトマックス関数を使っています。分類の確率を出すためです。

損失関数は以下を考えました。

誤差２乗和
交差エントロピー

出力層がソフトマックス関数の場合、交差エントロピーが損失関数としてセットになることが多いみたいです。

ここで疑問が２つ。

上記の例で、正解が「＋１０％以上」の学習データに対して以下の２つは同じ評価がされます。
- 「＋１０％以上」５０％、「ー１０％〜＋１０％」５０％　　
- 「＋１０％以上」５０％、「〜ー１０％」５０％
当てずっぽで全部「ー１０％〜＋１０％」にする、になりそう。。
「＋１０％以上」「ー１０％以下」がそれぞれ５％程度、あとはすべて「ー１０％〜＋１０％」くらいの分布になるので。しかし、大事なのは「ー１０％〜＋１０％」を当てることじゃなくて、「＋１０％〜」「〜ー１０％」を当ててもらうことです。単純に分類するだけでなく、「＋１０％〜」「〜ー１０％」にインセンティブを与えるような損失関数がいるのか、どうなのか・・・。

結局、とりあえず以下の関数を作ってみました。誤差逆伝播とかの関係でこの関数じゃダメなのかもしれませんが、一度やってみようと思います。
Loss = 教師データ(※)　- [(+10%〜である確率) - (〜ー１０％である確率)]

(※)教師データ。以下のように表現されます
「＋１０％〜」であれば1
「〜ー１０％」であれば-1
「ー１０％〜＋１０％」であれば0

3.出力イメージ

とりあえず実装。簡単に出してみました。
f:id:kurupical:20170904000727p:plain:w400

一番したにちょこっとでてる３×３の行列が結果です。
縦列が予想です。
１行目から順に〜ー１０％、ー１０％〜＋１０％、＋１０％〜とそれぞれ予想した件数です。
２行目にすべての数字が出ているので、この例だとすべてのデータに対して「ー１０％〜＋１０％」と予想しています。

横軸は実際の値です。
１列目から順に実際の値が〜ー１０％、ー１０％〜＋１０％、＋１０％〜となった件数です。
つまり、実際の値は５１４件が「ー１０％〜＋１０％」、７１件が「＋１０％〜」となっています。

縦横を合算すると、

５１４件は、予想結果とも「ー１０％〜＋１０％」で正解
７１件は、予想「ー１０％〜＋１０％」に対して結果「＋１０％〜」で不正解

となります。

※５万件くらい予想させましたが全部、「ー１０％〜＋１０％」で予想しやがります。
f:id:kurupical:20170904002009p:plain:w400

Loss関数を交差エントロピーにして、もう一度やってみます。。
３分類法、自分としてはかなり名案だと思ったのですが…。

4.その他

「どの程度予想があたれば統計的優位性があると認められるか」という計算もしたのですが、力尽きたので今日はここまでにします。

2017-09-02

＜株考察＞9/2　考察、今後の予定

どの牌が山に残っているかの読みが正確にできても、その牌がツモれる確率が5%程度上がるだけです。
一番当たる確率の高いハイテイツモの予想ですら王牌１４牌＋ツモ１牌の１５牌。特定の牌が４枚生きていると読んだとしても、ツモれる確率は４／１５＝２６％程度。一番当たる確率の高いハイテイツモですらこの程度です。ツモる牌を高い精度で予想するなんて不可能です。（※以下のような場合を除く）

【数学】たかしくんが40枚一組のデッキの中から特定の切り札1枚を、第n回目のドローで引き当てる確率を求めなさい。ただし、たかしくんは真のデュエリストとし、たかしくんとカードの間の絆は十分に深いものとする。
※元ネタ：matome.naver.jp

今の僕がやっている株価予測、上の例でいうと後者をやろうとしている気がします。こんなことを言っては元も子もないですが、株価の完全な予想なんてできません。
あくまで、期待値ベースで考えて期待値がプラスの行動を取るようにするべきだと思います。

なので、今のアプローチは間違っているんじゃないかと疑っています。（RNN使いたくてとりあえず予想をやってみたという自分の無計画さが露呈しました。）

じゃあどうするか。
自分のなかでは、２択かなと考えています。

株価の値を予測するのではなく、それぞれの確率を表示するようにする。
強化学習(*)を用いる

(*)強化学習
説明は以下を参照ください。（自分もちゃんとわかってない） qiita.com

2.今後の予定

RNNで株価を予測するのは以下をやってひとまずおしまいにしようと思っています。

1銘柄N日→次の日の終値の予想
(完了、１次関数〜４次関数までほぼ正確に予測できたが、株価は予測できず)
1銘柄N日→先30日の終値の最大値、最小値の予想
(完了、１次関数は予測できたが２次関数は予測できず)
1銘柄N日→先30日の終値の最大値、最小値を6分類する(値動き+10%以上、+5%〜+10%、0%〜+5%、-5%〜0%、-10%〜-5%、-10%以下）
（未完了）
（・M銘柄N日→1銘柄の先30日の終値の最大値、最小値）
※自分的には結構パワフルなモデルになると思っています。が、M銘柄×N日→1銘柄を予想する汎用的なモデルをそもそも作れるのか、RNNの深い理解が必須です。。できればやる。

3.その他

以下でソース公開しています。 github.com
遊戯王のくだり、昔読んで爆笑したけどどこだったかなあと探すのに１０分も費やしてしまいました。。
最近いろいろと別のことしていてなかなか時間取れません。投資関係もこのブログで書いてみようかな…。

2017-08-29

＜株進捗＞8/26-8/29　学習の検証

f:id:kurupical:20170829225608p:plain:w300
上記の例でいうと、2015/7/22から200日分のデータに基づき、201日目〜215日目の株価の最大値、最小値を予想しようとしています。
(201日目〜215日目は、点線の間に収まるだろうと学習モデルは予想しています。実際は最小値は近い値を出してますが最大値は的外れな金額を出しちゃってます)

モデル自体が正しいか検証。
1次関数だとうまくいく。
f:id:kurupical:20170829225845p:plain:w300

2次関数だと全然だめ。
f:id:kurupical:20170829230517p:plain:w300

2.その他

・毎日作業は結構やっているのですがなかなか進捗がなく、書くこともなく、という感じですね。。
ただ、2次関数だと全然学習モデルがよい予測をしないというのはわかったので、どうしたらいいか考えます。

学習→トレード

今後

今後確実にやりたいこと

今後考えること

その他ひとりごと

目次

1.学習させ続けてみた Day2

2.その他

謎現象

ブログリンク貼ってみた

ソースコード公開

目次

1. １日学習させ続けてみた

2.その他

画像認識、はじめました

ソースコード公開しています

目次

1.レビュー受けました

2.レビュー受けての感想

3.やったこと

１次関数〜４次関数の予想

銘柄の予想

4.その他

目次

1.今日やったこと

2.学習モデルの構築

3.出力イメージ

4.その他

目次

1.現状の考察

2.今後の予定

3.その他

目次

1.学習の検証

2.その他

1.学習させ続けてみた　Day2