はじめに
今回は機械学習プラットフォーム「DataRobot」の機能紹介記事として、データ管理機能であるAIカタログについて、基礎的な機能紹介したいと思います。
DataRobotについて
DataRobot社は、人工知能(AI)に対するユニークなコラボレーション型のアプローチであるバリュー・ドリブン AIのリーダーです。
DataRobot社の製品であるDataRobotは、自動機械学習(AutoML)プラットフォームであり、機械学習モデルの構築、トレーニング、評価、デプロイメントを自動化することができます。複雑なデータ分析を迅速かつ簡単に実行し、優れた予測モデルの作成をサポートすることが可能です。
本記事の主な想定読者
- DataRobotを導入していて、AIカタログ機能の基礎的な使い方を知りたい方
- DataRobotのプロジェクトの開始方法や、特徴量セット等、基礎的な操作・用語を理解している方
AIカタログとは
AIカタログは、DataRobotを使用する上で必要なデータを管理するための機能です。
DataRobot画面の最上部タブからアクセス可能です。
DataRobotの公式ドキュメントもありますので、「機能の詳細を知りたい」という方はそちらをご確認ください。
本記事で取り扱う内容
本記事では、現在あまりAIカタログを意識して使っていない方向けに、AIカタログを使うと便利になる場面を紹介したいと思います。
今回は代表例として、以下3つの場面を紹介します。
- 同じデータ・特徴量セットを何度も使うとき
- 同じデータを複数人(プロジェクト)で共有したいとき
- データをバージョンで管理したいとき
以降でそれぞれの場面についてご説明していきます。
場面1:同じデータ・特徴量セットを何度も使うとき
DataRobotで使っている方の中には、以下のように、同じデータや特徴量セットを使いまわしてモデリングを試行錯誤している方もいるのではないでしょうか?
- 同じ学習データを使って、設定を少し変えたプロジェクトをいくつも作成している。その際、毎回DataRobotに同じデータをドラッグ&ドロップしている
- 特徴量の組み合わせを変えてモデリングするために、考えられる特徴量を全て含んだ学習データをアップロードし、特徴量セットを作ってモデリングしている。その際、毎回同じデータをドラッグ&ドロップして、特徴量セットを手作業で作っている
- 複数のモデルの予測値を比較するために、同じ予測データを複数のモデルにドラッグ&ドロップしている
- 上記の組み合わせ
AIカタログでは、データを予めアップロードしておくことで、プロジェクト開始時に行われる前処理の一部が予め実行済になります。そのためAIカタログから新規プロジェクトを開始することで、アップロード時間が短縮されます。(予測データについても同様)
また、特徴量セットを予め作っておくこともできるので、上記のような試行錯誤を行っている方にとっては時間短縮(+ミス防止)になるかもしれません!
具体的な操作の一例を以下に示します。
①データをアップロード
「カタログに追加」からアップロードができます。ローカルファイル以外にも複数のアップロード方法をサポートしているので、詳細は公式ドキュメントを参照ください。
②特徴量セットを作成
アップロード後、特徴量セットタブから、特徴量を作っておくことができます。(画像では、特徴量1,2を除いた特徴量セットを作成)
③AIカタログからプロジェクトを作成
右上の「プロジェクト作成」ボタンから、プロジェクトを作成することができます。作成後のプロジェクトには②で作った特徴量セットも引き継がれているので、何回もプロジェクトを作ることが想定される場合はAIカタログを活用すると便利です。
場面2:同じデータを複数人(プロジェクト)で共有したいとき
同じデータを、複数人、もしくは複数プロジェクトで共有して使いたい場合にも、AIカタログを使うと便利です。
例えば、「社内の休日カレンダー」を自分で作ってAIカタログにアップロードし、「共有」をしておけば、他のユーザーもDataRobot上でこのデータを使うことができるようになります。
また、特に上記のようなカレンダーデータを時系列のプロジェクトで使いたい場合には、以下のように「高度なオプション」の「時系列」タブの中で、カレンダーをAIカタログから追加することもできます。こうすることで、自分でデータ処理を行わずとも、DataRobotが自動でカレンダーデータを追加してくれます。
複数のプロジェクトで同じカレンダーデータを使う、という場面であれば、AIカタログにデータをアップロードしておけば、毎回データをアップロードする必要が無くなるので、便利になります。
場面3:データをバージョンで管理したいとき
最後は、バージョン管理機能の紹介です。
例えば、以下のように予測モデルを運用している状況を想定します。
- 月に1度、翌月1か月分の売上を予測するモデルを運用している
- 毎月、先月分のデータを加えてモデルを再学習させている
上記の場合「予測する用のデータ」と「再学習用のデータ」を毎月作ると思いますが、長期間運用を続けると、これらのデータを管理するのが面倒になってくるのではないでしょうか。(どのファイルがいつの予測をしたものか分からなくなり、例えば何かしらデータに不備が出た場合、いつから不備があったかを振り返れなくなる)
AIカタログでは、データを「バージョン」で管理することができるので、既存のカタログデータセットに、新しいデータを新バージョンとして追加していくことで、データを管理しやすくなります。(例えば、「予測用」というカタログを作っておき、そこに毎月の予測用ファイルを新バージョンで登録)
また、過去のバージョンは「バージョン履歴」タブから確認することができます。
ここから、該当データをダウンロードしたり、プロジェクトを作成することもできるので、AIカタログを活用することで、DataRobot内で必要なデータを一括管理することができます。
まとめ
今回は、DataRobotのAIカタログ機能について、使うと便利になる場面を3つ紹介しました。
今までAIカタログを意識して使っていなかった方の業務効率化に役立てば幸いです。
機能の詳細について気になった方は、DataRobot公式ドキュメントもご参考ください。
今後も他の機能紹介記事や、デモ記事を紹介していきたいと思います!!
仲間募集
NTTデータ テクノロジーコンサルティング事業本部 では、以下の職種を募集しています。
1. クラウド技術を活用したデータ分析プラットフォームの開発・構築(ITアーキテクト/クラウドエンジニア)
クラウド/プラットフォーム技術の知見に基づき、DWH、BI、ETL領域におけるソリューション開発を推進します。
https://enterprise-aiiot.nttdata.com/recruitment/career_sp/cloud_engineer
2. データサイエンス領域(データサイエンティスト/データアナリスト)
データ活用/情報処理/AI/BI/統計学などの情報科学を活用し、よりデータサイエンスの観点から、データ分析プロジェクトのリーダーとしてお客様のDX/デジタルサクセスを推進します。
https://enterprise-aiiot.nttdata.com/recruitment/career_sp/datascientist
3.お客様のAI活用の成功を推進するAIサクセスマネージャー
DataRobotをはじめとしたAIソリューションやサービスを使って、
お客様のAIプロジェクトを成功させ、ビジネス価値を創出するための活動を実施し、
お客様内でのAI活用を拡大、NTTデータが提供するAIソリューションの利用継続を推進していただく人材を募集しています。
https://nttdata.jposting.net/u/job.phtml?job_code=804
4.DX/デジタルサクセスを推進するデータサイエンティスト《管理職/管理職候補》
データ分析プロジェクトのリーダとして、正確な課題の把握、適切な評価指標の設定、分析計画策定や適切な分析手法や技術の評価・選定といったデータ活用の具現化、高度化を行い分析結果の見える化・お客様の納得感醸成を行うことで、ビジネス成果・価値を出すアクションへとつなげることができるデータサイエンティスト人材を募集しています。ソリューション紹介
Trusted Data Foundationについて
~データ資産を分析活用するための環境をオールインワンで提供するソリューション~
https://enterprise-aiiot.nttdata.com/tdf/
最新のクラウド技術を採用して弊社が独自に設計したリファレンスアーキテクチャ(Datalake+DWH+AI/BI)を顧客要件に合わせてカスタマイズして提供します。
可視化、機械学習、DeepLearningなどデータ資産を分析活用するための環境がオールインワンで用意されており、これまでとは別次元の量と質のデータを用いてアジリティ高くDX推進を実現できます。
TDFⓇ-AM(Trusted Data Foundation - Analytics Managed Service)について
~データ活用基盤の段階的な拡張支援(Quick Start) と保守運用のマネジメント(Analytics Managed)をご提供することでお客様のDXを成功に導く、データ活用プラットフォームサービス~
https://enterprise-aiiot.nttdata.com/service/tdf/tdf_am
TDFⓇ-AMは、データ活用をQuickに始めることができ、データ活用の成熟度に応じて段階的に環境を拡張します。プラットフォームの保守運用はNTTデータが一括で実施し、お客様は成果創出に専念することが可能です。また、日々最新のテクノロジーをキャッチアップし、常に活用しやすい環境を提供します。なお、ご要望に応じて上流のコンサルティングフェーズからAI/BIなどのデータ活用支援に至るまで、End to Endで課題解決に向けて伴走することも可能です。
NTTデータとTableauについて
ビジュアル分析プラットフォームのTableauと2014年にパートナー契約を締結し、自社の経営ダッシュボード基盤への採用や独自のコンピテンシーセンターの設置などの取り組みを進めてきました。さらに2019年度にはSalesforceとワンストップでのサービスを提供開始するなど、積極的にビジネスを展開しています。
これまでPartner of the Year, Japanを4年連続で受賞しており、2021年にはアジア太平洋地域で最もビジネスに貢献したパートナーとして表彰されました。
また、2020年度からは、Tableauを活用したデータ活用促進のコンサルティングや導入サービスの他、AI活用やデータマネジメント整備など、お客さまの企業全体のデータ活用民主化を成功させるためのノウハウ・方法論を体系化した「デジタルサクセス」プログラムを提供開始しています。
https://enterprise-aiiot.nttdata.com/service/tableau
NTTデータとAlteryxについて
Alteryx導入の豊富な実績を持つNTTデータは、最高位にあたるAlteryx Premiumパートナーとしてお客さまをご支援します。
導入時のプロフェッショナル支援など独自メニューを整備し、特定の業種によらない多くのお客さまに、Alteryxを活用したサービスの強化・拡充を提供します。
NTTデータとDataRobotについて
NTTデータはDataRobot社と戦略的資本業務提携を行い、経験豊富なデータサイエンティストがAI・データ活用を起点にお客様のビジネスにおける価値創出をご支援します。
NTTデータとInformaticaについて
データ連携や処理方式を専門領域として10年以上取り組んできたプロ集団であるNTTデータは、データマネジメント領域でグローバルでの高い評価を得ているInformatica社とパートナーシップを結び、サービス強化を推進しています。
https://enterprise-aiiot.nttdata.com/service/informatica
NTTデータとSnowflakeについて
NTTデータではこれまでも、独自ノウハウに基づき、ビッグデータ・AIなど領域に係る市場競争力のあるさまざまなソリューションパートナーとともにエコシステムを形成し、お客さまのビジネス変革を導いてきました。
Snowflakeは、これら先端テクノロジーとのエコシステムの形成に強みがあり、NTTデータはこれらを組み合わせることでお客さまに最適なインテグレーションをご提供いたします。