<調査>Kaggle過去コンペ上位入賞者のSolutionから学ぶ(1)

blog.kaggle.com
この記事に、「コンペに優勝するためには過去のコンペから学ぶことが大事だ」と書いてあったので、過去のコンペを調べることにしました。
過去のコンペのDiscussionを見ると、上位入賞者が解法を公開してくれています。

HomeCreditと同じ「分類」タスクのコンペを探しました。

以下、自分のメモ書きです。

Porto Seguro’s Safe Driver Prediction 1st solution

Porto Seguro’s Safe Driver Prediction | Kaggle

1ファイルのコンペ(主キー1に対して、レコードがN行みたいなことがない)

手法

  • Representation learning
    • DAE(Deep Auto Encoder)による特徴抽出。
    • Feature Engineeringが嫌い!それを自動化してこそAIだ!ということだそうです。
  • Normalizationには"RankGauss"を使った
  • inputSwapNoize

    • 0.15 means 15% of features replaced by values from another row.
    • これって以下の認識であってるんでしょうか?
      • DAEはノイズ除去の役割を果たす
      • 人工的にノイズを作るため、各特徴の15%は別の行とスワップする
        f:id:kurupical:20180605205648p:plain:w500
  • GANはやってみたけど失敗

    • 連続値とカテゴリ変数が混在する場合のGANは難しい
    • 疑問:GANを何に使おうとしたのでしょうか?
  • NN5個とLGBM1個をstacking(重みはすべて同じ)

感想

  • DAEによる特徴抽出が強い!今のコンペでもやってみたいです。ただ、主キー1に対してN行データがある場合は入力が動的になるから難しいですね。この問題が解決できたら、いよいよFeature Engineeringが要らなくなる?
  • inputSwapNoiseの考え方が個人的にとても面白かったです。