初めに
AIとか機械学習などに興味があり ほそぼそと勉強はしていたものの 仕事はデータ分析などしている部署ではないためコードなど 年のためすぐに忘れてしまっている筆者です
勉強を忘れないために、2024年2月15日までSignateで行われている[第2回 金融データ活用チャレンジ](https://signate.jp/competitions/1325) に仲間、いや師匠たちとともに参加することにしました。
Dataikuとの出会い
今回のコンペでは、自身の環境で行うほか3つのツールが用意されていました。
1.databricks
2.tableau
3.dataiku
どれも魅力できでしたが、NoCoderでも使えるに加えこのかわいい鳥
コンペティションへの取り組み
さっそく使ってみる
担当者の方がチュートリアルを行ってくれて、ざっとした基本操作を教えてくれました。
なんと、それだけで私もデータの取り込みからクリーニング、加工、モデル構築、デプロイメント投稿用のcsvまで作成することができました。
データの理解とデータの前処理
コンペティション開始後、最初に行ったのは提供された金融データの理解です。Dataikuのデータビジュアライゼーション機能を利用して、データの分布や相関関係が簡単にわかるようですが、
相関係数とか見ても今はまだその結果の整合性が理解できないので。今回は大人の事情でカットして
データに含まれる異常値や欠損値の有無がないかについては、この分析機能を使って確認や置き換えをしました
データのクリーニングは分析の成功に不可欠です。Dataikuでは、ドラッグアンドドロップでデータ処理のフローを構築できるため、コーディング知識が乏しい私でも簡単にデータの前処理を行うことができました。特に、欠損値の処理など、データ前処理に関する多くのタスクを効率的に実行しました。
Dataikuでカテゴリカル変数は処理してくれるみたいなのでそこは何もしませんでした。
モデルの構築と評価
Dataikuの自動機械学習(AutoML)機能を使用して、複数のモデルを素早く構築(使いたいものをONするだけ)し、比較することができました。初心者である私でも、モデルのパフォーマンスを向上させるためのハイパーパラメータチューニング(数値いれるだけ。わからないのは初期値のまま)を行うことができました。また、Dataikuで提供される評価メトリクスを用いて、モデルの性能を客観的に判断しました。
どんな特徴量がきいているかも一目でわかる
学びと課題
このコンペティションを通じて、データ分析の基本的な流れと、金融データ特有の扱い方について多くを学びました。Dataikuを使用することで、技術的な障壁を感じることなくデータ分析プロジェクトに取り組むことができましたが、未だにチュートリアルを超えられていないため、より高度な分析を行うためには、統計学や機械学習の理論に関する理解を深める必要があると感じました。
結論
Dataikuを使用した金融データ活用コンペティションへの参加は、データ分析の魅力と挑戦を体験する貴重な機会でした。初心者でも手軽に始められるDataikuの使いやすさと、データ分析における深い学びの必要性を実感しました。これからも、Dataikuを活用してさらにスキルを磨き、データドリブンな世界で価値を提供してくれていると思います
そして、鳥グッズが私のところに来ますように