はじめに
このブログをご覧いただきありがとうございます。
今回は機械学習ツール「Dataiku」のAutoMLについて、簡単に紹介しています。
最後まで、読んでいただけると嬉しいです。
本ブログの目的
・機械学習プラットフォーム「Dataiku」の紹介
・AutoML機能の概要説明
1.Dataikuとは
「Dataiku」(データイク)は、全工程を一つのUIでカバーする
データサイエンス・機械学習プラットフォームです。
2013年にフランスのパリで設立された「Dataiku社」が提供しています。
同社は2019年にユニコーン企業として評価され急成長している会社です。
2020年と2021年には、ガートナー社の評価で2年連続「Leader」に選定されました。
Dataikuのコンセプトは、データサイエンティストから初級アナリストまで様々な
メンバーで構成されるデータ分析チームの誰もが扱いやすいコラボレーション
データサイエンスプラットフォームです。
1つのプラットフォームで関係者全員が共同で問題を解決することができ、
クリックのみで簡単にデータの加工や機械学習モデルの作成ができます。
2. AutoMLについて
AutoMLとは「Auto Machine Learning」の略で、機械学習モデルの設計や
構築を自動化することを意味します。
Dataikuの代表的なAutoML機能を紹介したいと思います。
■モデル作成前
・Feature handling、Ferture generation
学習させる際にどの変数を使用するか、変数の選択をする必要があります。
Dataikuでは、「Feature handling」や「Ferture generation」の機能があります。
「Feature handling」は、学習する時、必要な変数を選択することができる機能です。
また選択した変数をスケーリングしたり、データの欠損値に平均値や中央値などを代入できたり、欠損値を含むデータの行を学習から除外したりできます。
「Ferture generation」は、特徴量を新たに作成することができる機能です。
例えば、カラム同士の足し算や引き算、掛け算などした結果のカラムを新たな変数として使用することができます。
また、Dataikuでは学習結果に影響を与えない変数を自動で除外します。(例:全て一緒の値、全て違うデータ、etc...)
・アルゴリズム選定
Dataikuでは、Kaggleの勝者が良く使用する主要なアルゴリズムを用意しています。
またPythonで独自のアルゴリズムを追加することもできます。
■モデル作成後
・Variables importance
予測モデルの性能に最も影響を与える説明変数を示す機能です。
・Individual Explanations
この機能はDataikuならではの強みです。
各データが、なぜそのような推論結果(確率)になったのか、その根拠を示す機能です。
これで、エンドユーザへ予測結果の根拠を説明することが可能となります。
3.まとめ
今回は、機械学習プラットフォーム「Dataiku」の紹介とAutoML機能の概要を説明しました。
ご興味を持たれた方・ご質問がある方は、お気軽にお問い合わせください。
本ブログを読んでくださり、ありがとうございました。
Have a good day!