はじめに
こんにちは、@yshr10icです。
Qiita夏祭りの「DataRobotテーマ」の投稿になります。
DataRobotのAIプラットフォームをトライアルできるようになったので、せっかくの機会なので、Qiitaにも記事を投稿してみようと思いました!
DataRobotとは?
DataRobot社が提供するエンタープライズ向けにAIプラットフォームです。DataRobotはデータサイエンスの民主化を謳っており、AIを構築、デプロイ、メンテナンスするためのプロセス全体を自動化することができます。
DataRobot社には、KaggleでNo.1になったことがある人やトップレベルのデータサイエンティストが多数在籍しているとのことで、そんな方たちのノウハウを自動で使えるプラットフォームとなっているようです。
そんなDataRobotのAIプラットフォームが本日(2020/07/01)からトライアルの提供を開始しました。せっかくの機会なので、試してみたいと思います!
DataRobot、「DataRobot AI Platformトライアル」の国内提供を開始
トライアル版の申し込み
DataRobot AI Platform トライアルはここから申し込むことができます。
必要事項を記入して「送信」ボタンを押すと、登録したメールアドレス宛にメールが届くので、リンクをクリックしパスワードを設定します。
ログインすると以下のページに遷移します。黒を基調としており、かっこいいデザインですね!
こちらが、トライアル版と有償版の使用できる機能の一覧となります。
実際に予測させてみる
今回はDataRobot AI Platformに用意されているサンプルデータセットを用いて、予測させてみたいと思います。
トップページにある「夢の野球チームの予測」の「プロジェクトを作成」をクリックします。
そうすると、データのアップロード、データの読み取り、探索的データ解析が行われます。
データの解析が終わると、以下のように何を予測するのかを聞かれます。
「データ品質」の項目では、特徴量の数、データ行数、外れ値の有無などが確認できます。今回のデータは、98の特徴量、14060のデータ数があるようです。
その下では、各特徴量の基本的な統計量を確認することができます。
なお、データ品質の列にが入っている特徴量がありますが、こちらは今回のデータでいうと外れ値を含んでいる特徴量になります。体重の最小値、最大値を確認してみると(おそらく単位はポンドだとは思いますが)、最小値140ポンド(≒63.5kg)、最大値295ポンド(≒133.8kg)となっており、野球選手として133kgはさすがに重すぎるので、適切なチェックがされていると言えます。
体重のように明らかに外れ値だろうと分かる特徴量については良いですが、一見すると外れ値かどうか分かりにくい特徴量もデータセットには必ず含まれているため、自動的にデータの品質をチェックしてくれるは非常にありがたいですね。
今回は「wOBA」を予測対象としたいと思います。ちなみにwOBAとはWeighted On-Base Averageの略で、打者の攻撃力を測る指標らしいです。(Wikipedia参照)
画面の一番上に戻り、「推奨されるターゲット」の「wOBA」をクリックします。
そうすると、自動で「回帰」予測が選択され、開始ボタンが押せるようになりました。
なお、高度なオプションを表示させると、いろいろな手法を試すことができるようです。
今回はデフォルトの設定のまま、開始ボタンをクリックします。
そうすると、モデリングが実行されます。以下のように、様々なモデルを用いて予測させていることが分かります。予測には、少々時間がかかりますので、コーヒーでも飲みながら気長に待ちましょう
学習が完了しました!
左上のモデルタブを押してみると、作成されたモデルの一覧を表示させることができます。今回は23のモデルが作成されたようです。交差検証でスコアが良かった順に並んでいるようですね。
また、下の方にスクロールしてみると、「検定」の評価値が低いモデルは交差検定を行っていないようなので、こういったところでモデリングの時間を短縮しているようです。
モデルをクリックしてみると、そのモデルがどのような構成なのか、どの特徴量がインパクトがあるのか、などを調べることができます。確認できる項目が多くあるので、これらを確認するのは少し大変そうだなという印象です。
それでは、この一番上にあるモデルを用いて、予測をしてみたいと思います!
モデルを選択すると、「予測」タブがあるので、そちらをクリックします。今回は予測用のデータセットが用意されているので、そちらをダウンロード&アップロードして予測したいと思います。
アップロードができたら、「予測を計算」をクリックします。
予測用データセットは283行あり、1分もしないうちに予測が完了しました。予測結果をダウンロードして結果を確認してみたいと思います。
ちゃんと予測ができていました!CSVをアップロードしてボタンをクリックするだけで予測できるので簡単ですね!
まとめ
いかがだったでしょうか?DataRobot AI Platformのトライアル申し込みからサンプルデータを用いたモデルの学習、予測を実施してみました。モデリングで使用できるオプションや、結果の確認項目など非常に多くあったのですべてを確認することはできませんでしたが、GUIでボタンをポチポチと押すだけでここまでできるは非常にすごいなーと思いました。
今回は、DataRobot AI Platformにあるサンプルデータを用いて学習〜予測を行ったので、今度は自身に馴染みのあるデータを使って試してみたいなと思いました。
今回の記事は以上となります。最後まで読んでいただき、ありがとうございました!
参考になった!という方はLGTMをしていただけると励みになりますので、よろしくお願いいたします!