More than 1 year has passed since last update.

第2回金融データ活用チャレンジ　Datsikuと共に

Last updated at 2024-02-16Posted at 2024-02-12

はじめに

こんにちは！DoNoriです！
SIGNATEで開催された第2回金融データ活用チャレンジに参加しました。昨年の第1回チャレンジで初めてコンペに参加し、データ分析の楽しさに魅了され、今回もデータ分析を楽しみたく、参加しました。

特に今回は、参加者に無料でデータ分析ツールが提供されるということで、興味をそそられました。ノーコードでデータ分析ができると聞いて、今回はDataikuを使ってコンペに参加させてもらいました！

なぜDataiku

このツールのデモを見たとき、「おおっ！」ってなりました。
データを可視化するのがこんなに簡単になるなんて、グラフを表示させるのに今まで、一生懸命ChatGPT先生やGoogle先生に聞いていた毎日からおさらばできそうです！

コンペの目標

今回のコンペは過去にKaggleで出題されたSBAのデータを元に作られたデータを分析するとのことでした。
コンペ参加自体、3回目のど素人なので今回はとにかく以下の3点を意識していきました。
・データをとにかく良く見る
・Kaggleの参加者のやり方を真似る
・Slackのコメントをよく見て真似る

そしてリーダーボードを眺めて、0.6を超えることを目標にチャレンジを開始しました！

Dataikuを触ってみて

英語だし、そもそも単語に慣れていないので、最初は途方に暮れました。
でも、すぐにハンズオンを実施してもらい、こんな簡単なのか！！
とびっくりしました！

ハンズオンの説明もとても丁寧で分かりやすかったです🎵

モデル作りはどうだった？

さて、ハンズオンを実践して、ざっくり流れを押さえた所で、本格的にデータ分析を開始

まずはデータを可視化！！

ってことで、staticsタブでポチポチ
ボタンを押したら、、

はいこれ！！

楽ですね、すごいですね！

うん？
これが、何を意味してるかって！？

そう、そこが問題なんですよね。
グラフは簡単に出来るけど、うーん、イマイチこのグラフが何を意味してるか、分からない。

数時間、なんか面白そうなグラフやら資料作って遊んでました笑

完全に課題一個目ですよね。
素晴らしいツールがサクッとグラフにしてくれても、肝心の人間がそのグラフを読み解けない・・・。

何はともあれ、分かりそうなグラフやら資料わ作ってみて、データの前処理を実践して、

いざモデルの作成！

モデルを作成画面はこんな感じで

これまた、ポチポチやるだけで、
使ってみたいアルゴリズムでモデルが簡単に出来ました！

Dataikuのおかげでどれが一番いい結果を出すのか、すぐに分かりました。
この辺、かなり楽になります！

さらに、実装したかったアンサンブル学習やクロスバリデーションも簡単に設定できて、コーディングに頭を悩ませず、どうやったらモデルの精度が上がるのか？に集中でき、無事目標の0.6以上を達成できました！

データ分析で工夫したこと

==工夫①==
目標の一つとしてKaggle参加者の実装内容を学ぶを設定していたので、
似たようなKaggleのコンペでどのような前処理が行われていたか
探していたところ、SBA Loan Approval Analysisの記事を見つけ、参考にしていきました。

記事の中で、フランチャイズのフラグを作ることや、Termを区間で分けることなど、自分でも理解できるところを参考にデータの前処理を行っていきました。

モデル作成では、デフォルト設定で複数のアルゴリズムで学習してみましたが、LightGBMが1番精度良かったので、こちらを採用。
Feature Importanceは以下の通りで、UrbanRural（都市か田舎か？）とNoEmp（企業の従業員数）がAIモデルの学習に重要なってそうなのがわかります。
もっと、知識のある方なら、このDataikuで表示されているグラフから、どうすればもっと学習精度を上げられる等分かるのかもしれませんが、今の私には無理なんで、とりあえず、UrbanRuralとNoEmpをいじってみようと思いました。