blog.kaggle.com
この記事に、「コンペに優勝するためには過去のコンペから学ぶことが大事だ」と書いてあったので、過去のコンペを調べることにしました。
過去のコンペのDiscussionを見ると、上位入賞者が解法を公開してくれています。

HomeCreditと同じ「分類」タスクのコンペを探しました。

以下、自分のメモ書きです。

Porto Seguro’s Safe Driver Prediction 1st solution

1ファイルのコンペ(主キー1に対して、レコードがN行みたいなことがない)

手法

Representation learning
- DAE(Deep Auto Encoder)による特徴抽出。
- Feature Engineeringが嫌い！それを自動化してこそAIだ！ということだそうです。
Normalizationには"RankGauss"を使った
- RankGauss http://fastml.com/preparing-continuous-features-for-neural-networks-with-rankgauss/
  - min/max scalingやmean/stdでの正規化より良いらしいです。
    あまり記事がないので、あとで調べます・・・
inputSwapNoize
- 0.15 means 15% of features replaced by values from another row.
- これって以下の認識であってるんでしょうか？
  - DAEはノイズ除去の役割を果たす
  - 人工的にノイズを作るため、各特徴の15%は別の行とスワップする
GANはやってみたけど失敗
- 連続値とカテゴリ変数が混在する場合のGANは難しい
- 疑問：GANを何に使おうとしたのでしょうか？
NN5個とLGBM1個をstacking(重みはすべて同じ)