みなさん、こんにちは!
私は、保険会社勤務10年目、脳筋新規開拓保険営業マンを経て、現在はCS部門で企画業務に従事しているSaitoと申します。
どういうご縁か業務の中でデータサイエンス(的な業務)に関わらせていただいたり、生成AIに関わらせていただいたりと、もともと筋肉でできていた脳みそが徐々に溶けていっているところで今回、第2回金融データ活用チャレンジコンペティションに参加させていただくこととなりました。
業務の中で軽く触れているとはいえ、統計学を学んだわけでもなく、コーディングができるわけでもない素人がデータサイエンスの世界に足を踏みいれてしまいました。
本記事では、そんな私がDataikuを活用してどのようにコンペを完走できたのか赤裸々に記していけたらと思っています。
Dataikuとの出会い
コンペにエントリーしたが、コーディングはできない。SIGNATEのチュートリアルページを見ても難しそう。どうしたものか…。と頭を抱えていました。
そんなとき、提供された素晴らしいツールたちの中で一番最初にハンズオンを実施したのがDataikuさんでした。
藁にもすがる思いでハンズオンに参加したところ私のようなコーディングができない非データサイエンティストでもスイスイと操作できるではありませんか…!
こんなにも簡単にできるのか!と感動しながらの初提出。
スコアは0.61ほどでした。
非データサイエンティストの自分にしては、もう十分やった…と燃え尽きそうになりましたが、Dataikuを使えばこんなこともできるんじゃないかな?と、沸々と沸き上がる好奇心とともに、結局Dataiku1本でコンペ終了まで闘いぬきました。
いろいろいじってみた
どうやら、予測をするうえで特徴量エンジニアリングは欠かせないらしい…
最初はエクセルでポチポチと特徴量を作ってみたりしていましたが、膨大な量のデータをいじるのはめんどくさすぎるうえにデータ量が膨大で作業時間がかかりすぎる…。
Dataikuのハンズオンではどうやっていたっけ?と何回もYoutubeに残されたハンズオンの動画を見直しました。(VHSなら擦り切れていました)
prepareには無限の可能性があるのではないか…と思いprepareをひたすらにいじり、特徴量を作ったり削ったり、時にはまとめたり…
エクセルでやっていた作業がスイスイできる、しかもサジェストもしてくれる…ありがとうDataiku。
いろいろいじってみた2
ハンズオンに従順な私は、毎回同じモデル(Random ForestとLogistic Regression)でフローを回していました。
Slackを見ているとどうやら決定木という手法がイケているらしい。
Dataikuにも絶対にあるはずだ。とモデルがいじれる場所はないか探しているとあるではありませんか、モデルをいじるところ。さすがDataiku…
せっかくなのでDecision Treeのほかにもいくつか試してみようと思い、Light GBMも仲間に入れてあげて4モデルで競い合わせてみたところ、少しずつスコアが上がっていきました。
もう、これ以上は上がらない…限界だ…と思いながらまたSlackを眺めていると、Dataikuでは、モデルとモデルを掛け合わせてアンサンブルモデルも作れるらしい。やるじゃないかDataiku。
そこからは馬車馬のようにDataikuを回し続け最終的には0.68までスコアを上げることができました。
▼最終日のフロー…もう何が何だか自分でもわかりませんでした。
おわりに
Dataikuのハンズオンを受講して初めて提出したスコアは、0.61。
試行錯誤を重ねているのに叩き出してしまった0.51。
馬車馬のようにDataikuを回してようやく到達した0.68。
Dataikuのおかげで楽しく学びながらコンペを完走し、順位は346位と上位には入れませんでしたが、データサイエンス初心者にしては及第点だと考え、大いに満足しています。
Dataikuがなければ、社会人として初めて会社の命令に背きコンペを放り投げていたかもしれません。
ありがとうございました。
最後に会社では生成AIの業務にも片足突っ込んでいるので生成AIにアウトロを生成してもらいました。
今後の目標
今回学んだことを活かし、データ分析スキルをさらに磨いていきたいと思います。
そして、将来的には、データ分析を仕事に活かせるよう、努力を続けたいです。
Dataikuは、データ分析初心者にとって非常に強力なツールです。
これからデータ分析に挑戦したいと思っている方は、ぜひDataikuを活用してみてください!
Dataikuを使えば、あなたもデータ分析の楽しさを実感できるはずです!
おわり