• home
  • about
  • 全ての投稿
  • ソフトウェア・ハードウェアの設定のまとめ
  • 分析関連のまとめ
  • ヘルスケア関連のまとめ
  • 生涯学習関連のまとめ

ieee-fraud-detection

date: 2021-01-31 excerpt: ieee-fraud-detectionのsolution

tag: ieee-fraud-detectionkagglesolutionpython


ieee-fraud-detectionのsolution

概要

  • テーブルデータ
  • クレジットカードの不正利用を検出する

1位のソリューション

  • link
    • https://www.kaggle.com/c/ieee-fraud-detection/discussion/111284
  • who
    • Chris Deotte

魔法の特徴

  • transactionを予測する問題であったが、clientを予測した
    • これはラベルの付け方の定義に基づけばそのほうが良かったということ

オーバーフィット防止

  • clientの特徴を作る際に、clientを唯一に表すUIDを使わない
  • train, testのデータの双方にあるデータを用いて適切に設計する
    • uidを見つけるスクリプトを作成する必要があり、これによってスコアが大幅に伸びた

特徴量選択

  • 前方特徴量選択
  • 再帰的な特徴量選択
  • 順序の重要性
  • 敵対的検証
  • 相関分析
  • 時間の一貫性
    • 最初の月のデータから最後の月の状態を予測して、ネガティブに働く特徴量を除去したりした
    • このコンペのユニークなポイント
  • クライアントの一貫性
  • train/test分布分析

2位のソリューション

  • link
    • https://www.kaggle.com/c/ieee-fraud-detection/discussion/111321
  • who
    • cpmp

特徴量エンジニアリング

  • UIDを示すような値を様々に仮説し、いろいろなパターンを作ったらしい


ieee-fraud-detectionkagglesolutionpython Share Tweet