AI・データ分析分野に興味があり、アウトプットを通じて学習を継続するために、
クレジットリスク分析をテーマに取り組み始めました。
本記事はそのDay1の学習ログです。
今回は、Kaggleで公開されている German Credit Data を使用しました。
1000件の融資データが含まれており、信用リスク(良・不良)を判別するための
代表的なデータセットです。
データを確認したところ、以下の特徴がありました。
- データ数:1000件
- 特徴量数:21
- カテゴリ変数が多い
- 一部のカラムに欠損値あり
今回のデータでは、kredit カラムが信用リスクを表していました。
- 1:信用良
- 2:信用悪
クラスの比率を確認すると、信用良が約7割、信用悪が約3割で、
クラス不均衡があることが分かりました。
Day1ではモデル構築は行わず、データ理解に集中しました。
現時点では、
- 貯蓄状況
- 借入額
- 返済期間
- 年齢
あたりが信用リスクに影響しそうだと感じています。
次回は、信用良・不良ごとの分布を可視化し、
どの特徴量が効いていそうかをもう少し深掘りしてみる予定です。
まずはデータ全体を把握することの重要性を改めて感じました。