はじめに
Dataiku社の(データサイエンスができるようになりたい)営業マンの中村(Linkedin,X/Twitter)です。DataikuはAIの民主化を謳っており、文系ノーコーダーの私でもできるんだぞ!ということを証明するために参加させて頂きました。今回コンペ参加は2回目となります(初回はSMBC Group GREEN×DATA Challengeで105位とメダルに届かずでした(泣))
そんな私なんかがおこがましいですが、暫定スコアで0.69以上が出たので、どのようにこのコンペに取組んだかを記載致しました。
(追記:最終順位は129位に終わりました。上位10%くらいでしょうか。)
コンペ全体の総括をこちらのブログにまとめましたので、こちらも併せて御覧ください。( FDUA金融コンペで垣間見えたDataikuへの高いニーズと強いモメンタム)
作成したフローはこちら
(※下側がTrainデータの加工、上側がTestデータの加工です。同じ工程ですが、ルールの都合上わけています)
(本当は【FDUA】第二回 金融データ活用チャレンジにDataikuを活用して参加してみる。のフローようにZONEで色分けして整理したかったのですが・・・)
Dataikuとは?
今最も勢いのあるデータ分析/AIのプラットフォーム製品です。データサイエンティスト、データエンジニア、データアナリスト、ビジネスユーザーがコラボレーションできるようノーコード、ローコード、フルコートで使え、分析プロセスのEnd to Endをカバーします。(Webページ)
企業で導入検討されたい方は私までご連絡くださいね!
目次
1.EDA
2.前処理
3.特徴量生成
4.欠損値処理
5.ML
6.デプロイ
1. EDA
まずはEDA(探索的データ分析)、要はデータを理解すること!いくつかあるデータの可視化機能を使って、探索的にデータを理解していきます。
下図の通りNull値があるデータがいくつかの列で確認できますし、Signateサイトのデータの説明にないもの(Y/N以外のもの)も散見されます。
インタラクティブ統計機能(Statistics)で貸倒れした場合の傾向が現れていないかも確認します。
もう少し自分の考える軸でデータを理解したいときはChart機能を用います。
2. 前処理
このあたりはチャチャチャっと。Dataikuが自動で「これやっときます?」的に提案してくれるので、クリック操作だけで完了させます。
(ご参考:Dataiku初体験: 新人データサイエンティストが見た可能性とは?)
行ったのは主に下記2つだけです。
- 日付型に変更
- $と金額をSplit
そして、ここで問題になるのは、欠損値(と考えられるもの)をどうするか。
RevLineCrやLowDocにはYとN以外に、Nullとか0とかCとか・・・これにはどんな意味があるのでしょう? しかもRevLineCrはY/N以外が約15%、LowDocには約6.4%、無視できない比率です。
Chart機能で、それぞれのMIS_Statusを確認すると、その比率はマチマチで、これを1つに纏めるのは少し怖い。なにかしらの意味があるのではと考え、このまま扱うことにしました。
3. 特徴量生成
実際に下記4つの手法を使って特徴量生成を行ってきました。
a(1). Prepare Recipe(準備レシピ)
- StateとBank Stateは同じか?(TRUE or FALSE)
- Aprroval DateとDisbuesement Dateの日数差
これもプロセッサーを使った簡単な処理です。
a(2). Window Recipe
例えば、タクシーの経費を簡単に承認してくれる上司と、なかなか渋い上司といますよね。
そんな感覚で銀行の支店長の考えで審査に甘いところとそうでないところがあるのでは?という仮説のもとWindowレシピを使って支店(FranchiseCode)ごとのMIS_Statusの0と1の比率を取りました。
b. Python Recipe
Dataikuは”ノーコード”に注目されがちですが、コーディングもできるのです。
そして私はコーディングできませんが(ドヤッ)、今はChatGPTが代わりに行ってくれるのです。
Sectorの番号をSignateページに記載の業種を割り当てました。(31〜33が製造業というように、複数の番号が同じ業種を意味するものがあったためです)
c. LLM Recipe
上の作業で業種名を割り当てました。これらの業種を成長した業種(1)、あまり変化ない業種(2)、衰退した業種(3)に分類分けみようと考えました。そこで利用したのがLLMレシピです。
LLMを選択し、対象の列を選択し、プロンプトを作成しました。
作成したプロンプトはこちら
『米国で1989年から2011年の間で成長した業種で成長した業種は1、あまり変化がない業種は2、衰退した業種は3を返してください。不明な場合は0を返してください。数字のみで返答してください。』
これで成長したかどうかの特徴量が生成されました。
ちなみにDataikuは様々なLLMと連携できるようになっています。Custom LLMを選択すれば、国産LLM(NTT社のTsuzumiとかソフトバンク社か開発しているもの等)とも連携できる仕様です。
d. Plugin(Geocoder)
Stateのデータを使って緯度経度の特徴量も算出しました。
(なんとなく、気候がいい地域は審査ゆるそうとか、お金返さない人が多そうとか、そんなことあるのかなぁって考えました笑)
デフォルト設定でない機能はPlug-inで追加できます。
今回はGeocoderのPluginをワンクリックでインストールしました。Stateを指定し、実行するだけで緯度経度を出してくれます。
4. 欠損値処理
上記の前処理のパートで記載した通り、RevLineCrやLowDocの欠損値処理は行わずそのままのデータとして取り扱いました。しかし、、DisbursementDateに150件(0.4%)にNull値があり、これを埋めることで予測精度が上がるのではと考えました。
これを予測するために、Aprroval DateとDisbuesement Dateの日数差をAutoMLで予測し、Disbuesement Dateの予測を行いました。(高い精度はでなかったですが。。。)「
5. ML
分析のプロセスのほとんどがデータ理解とデータ加工と言われていますが、本当にその通りです。“Garbage In, Garbage Out”(ゴミを入れたら、ゴミが出てくる)ですから、ここまでのプロセスが非常に重要でした。ここまできっとやっと機械学習です。
a. AutoML
モデル作成にどの特徴量を入れるか入れないか、数値としてかカテゴリーとしてか、Null値はどう処理するか?などをクリック操作でハンドリングします。
アルゴリズムを選択し、ハイパーパラメーターを調整し、学習をスタート。
b. 説明性
精度が高いモデルの特徴量の重要度(Valuable Importance)を確認し、さらに理解を深めます。
下図は左がRandom Forest、右がLASSO LARS。
c. アンサンブル
上記説明性のパートの図であることに気付きます。Random ForestもLASSO LARSのどちらも高い精度が出ているのですが、それぞれ効いている特徴量が異なります。精度は高いが傾向の異なるこの2つのモデルのアンサンブル(平均)を作りました。
6.デプロイ
デプロイし、MIS_Statusの0の比率が8.5くらいになるように閾値を調整します。
これでSubmitして完了!
さいごに
今回のコンペを通してたくさん勉強させて頂きました。本来業務でも同じように、データが汚かったり、本当に必要なデータが入手できなかったり、様々な障壁があるなかでデータを使って意思決定をしなくてはいけない。そういう意味ではとても実践的な内容でした。今後も皆様と一緒に学んでいければなと思います。また次回も楽しみにしています。