はじめに
本記事はDatabricks アドベントカレンダー2024 23日目の記事です。
前回はUnity Catalogの特徴について、機械学習で活用する視点からご紹介しました。
今回は、Unity Catalogを活用していきます。カタログ機能にある「AI生成」機能を用いて、機械学習のデータを理解するのに使います。(第三話の予告とはテーマを変更しました🙏)
なお、機械学習のデータとして、データコンペの「kaggle」のデータを用いています。
対象読者
- Unity Catalogを実際にこれから触っていきたい人
- kagglerで、Unity Catalogを使ってデータをじっくり観察したい人
利用データ
第一話のようにTitanicコンペがテーブルデータのため、こちらを用いて検証しました。
やったこと
csvファイルを手元にダウンロードをし、「カタログの登録」を行なったあと、AI生成の機能を用いてデータの理解を促進してもらいました。
カタログへの登録
カタログエクスプローラーから、「作成>テーブルの作成」を押下し、ドラックアンドドロップで登録を行います。
そうすると、「ファイルアップロードからテーブルを作成または変更」で、登録するカタログ・スキーマに間違いないかを確認し、任意のテーブル名をつけます。問題ない場合は、右下の「テーブルを作成」を押下します。
なおkaggle APIからTROCCOで転送してテーブル登録することも可能です。
筆者の過去記事で説明しているものがありますので、こちらをご参照ください。
AI生成の機能について
次にデータの理解を促進するために用いた、AI生成の機能について紹介します。
使えたものとして、データの概観を理解する「概要>データの説明」 と各カラムの説明をする「概要>コメント」の2つで利用ができました。
データの説明について
概要部分からは「AIが提案する説明」の部分に、自動的にどのようなデータかを説明してくれる機能がありました。
こちらの内容で問題なければ、承認ボタンを押下してもらうと、実際に中身が反映されます。
承認後も、編集する機能があり、手入力で修正することが可能なほか、ここにもAI生成の機能も存在しました。
デフォルトでは「テキストを短くする」や「テキストを翻訳」(日本語翻訳ではなく、要約に近い)がありました。
また、AI生成の機能をカスタマイズすることも可能で、英文で生成されたものを日本語翻訳もできました!
「テキストを翻訳」を押下し、送信ボタンを押す前に「コメントを日本語で翻訳」と書き換えると、AI生成で作成された文章が日本語で返ってきました!
コメントについて
次にテーブルの機能として、各カラムのコメントを書く箇所があります。
こちらに関してもAI生成の機能がありました。
画面右上の「AI生成」を押下すると、コメント欄に「カラムにはどんなデータが存在するか?」を自動で文章を生成してくれます。
こちらの機能についても、データの説明で紹介した、編集機能の「テキストを短くする」やカスタマイズして「コメントを日本語で翻訳」も対応していました。
まとめ
今回はUnity Catalogのカタログ機能を用いて、kaggleコンペのテーブルデータの理解の促進を行いました。
kaggleのコンペを進める上で、事前に何のデータかわかっていると、EDA等が進めやすいと感じてました。
実際に開催されているkaggleコンペに出る際は、「AI生成」の機能を活用して、データの理解を深めていこうと思います。
今回の記事では「AI生成」で作成されたものにはマスクをかけています。
本記事で興味を持った方は、データをダウンロードし、ご自身の環境で文章の中身を確認してみてください!
なお次回以降のお話ですが、検討中です。
Unity Catalogをより深く掘っていくor Auto ML機能に着手するか迷い中です。
参考文献
AI生成の日本語訳に関して、Databricksの中の人が書いた記事がヒットし、参考にさせて頂きました。