<調査>Kaggle過去コンペ上位入賞者のSolutionから学ぶ(1)
blog.kaggle.com
この記事に、「コンペに優勝するためには過去のコンペから学ぶことが大事だ」と書いてあったので、過去のコンペを調べることにしました。
過去のコンペのDiscussionを見ると、上位入賞者が解法を公開してくれています。
HomeCreditと同じ「分類」タスクのコンペを探しました。
以下、自分のメモ書きです。
Porto Seguro’s Safe Driver Prediction 1st solution
Porto Seguro’s Safe Driver Prediction | Kaggle
1ファイルのコンペ(主キー1に対して、レコードがN行みたいなことがない)
手法
- Representation learning
- DAE(Deep Auto Encoder)による特徴抽出。
- Feature Engineeringが嫌い!それを自動化してこそAIだ!ということだそうです。
- Normalizationには"RankGauss"を使った
- RankGauss http://fastml.com/preparing-continuous-features-for-neural-networks-with-rankgauss/
- min/max scalingやmean/stdでの正規化より良いらしいです。
あまり記事がないので、あとで調べます・・・
- min/max scalingやmean/stdでの正規化より良いらしいです。
- RankGauss http://fastml.com/preparing-continuous-features-for-neural-networks-with-rankgauss/
inputSwapNoize
GANはやってみたけど失敗
- 連続値とカテゴリ変数が混在する場合のGANは難しい
- 疑問:GANを何に使おうとしたのでしょうか?
NN5個とLGBM1個をstacking(重みはすべて同じ)
感想
- DAEによる特徴抽出が強い!今のコンペでもやってみたいです。ただ、主キー1に対してN行データがある場合は入力が動的になるから難しいですね。この問題が解決できたら、いよいよFeature Engineeringが要らなくなる?
- inputSwapNoiseの考え方が個人的にとても面白かったです。