0
0

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?

【学習ログ】クレジットリスク分析 Day1|German Credit Dataを触ってみた

Posted at

AI・データ分析分野に興味があり、アウトプットを通じて学習を継続するために、
クレジットリスク分析をテーマに取り組み始めました。
本記事はそのDay1の学習ログです。

今回は、Kaggleで公開されている German Credit Data を使用しました。
1000件の融資データが含まれており、信用リスク(良・不良)を判別するための
代表的なデータセットです。

データを確認したところ、以下の特徴がありました。

  • データ数:1000件
  • 特徴量数:21
  • カテゴリ変数が多い
  • 一部のカラムに欠損値あり

今回のデータでは、kredit カラムが信用リスクを表していました。

  • 1:信用良
  • 2:信用悪

クラスの比率を確認すると、信用良が約7割、信用悪が約3割で、
クラス不均衡があることが分かりました。

Day1ではモデル構築は行わず、データ理解に集中しました。

現時点では、

  • 貯蓄状況
  • 借入額
  • 返済期間
  • 年齢

あたりが信用リスクに影響しそうだと感じています。

次回は、信用良・不良ごとの分布を可視化し、
どの特徴量が効いていそうかをもう少し深掘りしてみる予定です。

まずはデータ全体を把握することの重要性を改めて感じました。

0
0
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
0
0

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?