2
2

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?

DatabricksAdvent Calendar 2024

Day 23

Databricks経由Machine Learningの旅 第四話 -Unity Catalogでkaggleのデータをわかりやすくして貰う-

Last updated at Posted at 2025-01-09

はじめに

本記事はDatabricks アドベントカレンダー2024 23日目の記事です。

前回はUnity Catalogの特徴について、機械学習で活用する視点からご紹介しました。

今回は、Unity Catalogを活用していきます。カタログ機能にある「AI生成」機能を用いて、機械学習のデータを理解するのに使います。(第三話の予告とはテーマを変更しました🙏)

なお、機械学習のデータとして、データコンペの「kaggle」のデータを用いています。

対象読者

  • Unity Catalogを実際にこれから触っていきたい人
  • kagglerで、Unity Catalogを使ってデータをじっくり観察したい人

利用データ

第一話のようにTitanicコンペがテーブルデータのため、こちらを用いて検証しました。

やったこと

csvファイルを手元にダウンロードをし、「カタログの登録」を行なったあと、AI生成の機能を用いてデータの理解を促進してもらいました。

カタログへの登録

カタログエクスプローラーから、「作成>テーブルの作成」を押下し、ドラックアンドドロップで登録を行います。

スクリーンショット 2025-01-08 15.55.43(2).png

そうすると、「ファイルアップロードからテーブルを作成または変更」で、登録するカタログ・スキーマに間違いないかを確認し、任意のテーブル名をつけます。問題ない場合は、右下の「テーブルを作成」を押下します。

スクリーンショット 2025-01-09 9.40.51.png

なおkaggle APIからTROCCOで転送してテーブル登録することも可能です。
筆者の過去記事で説明しているものがありますので、こちらをご参照ください。

AI生成の機能について

次にデータの理解を促進するために用いた、AI生成の機能について紹介します。

使えたものとして、データの概観を理解する「概要>データの説明」 と各カラムの説明をする「概要>コメント」の2つで利用ができました。

データの説明について

概要部分からは「AIが提案する説明」の部分に、自動的にどのようなデータかを説明してくれる機能がありました。
こちらの内容で問題なければ、承認ボタンを押下してもらうと、実際に中身が反映されます。

スクリーンショット 2025-01-09 9.48.40.png

承認後も、編集する機能があり、手入力で修正することが可能なほか、ここにもAI生成の機能も存在しました。
デフォルトでは「テキストを短くする」や「テキストを翻訳」(日本語翻訳ではなく、要約に近い)がありました。

スクリーンショット 2025-01-09 9.49.10 2.png

また、AI生成の機能をカスタマイズすることも可能で、英文で生成されたものを日本語翻訳もできました!

「テキストを翻訳」を押下し、送信ボタンを押す前に「コメントを日本語で翻訳」と書き換えると、AI生成で作成された文章が日本語で返ってきました!

スクリーンショット 2025-01-09 9.51.15.png

スクリーンショット 2025-01-09 9.52.09.png

コメントについて

次にテーブルの機能として、各カラムのコメントを書く箇所があります。
こちらに関してもAI生成の機能がありました。
画面右上の「AI生成」を押下すると、コメント欄に「カラムにはどんなデータが存在するか?」を自動で文章を生成してくれます。

スクリーンショット 2025-01-09 9.58.35 2.png

スクリーンショット 2025-01-09 10.02.13.png

こちらの機能についても、データの説明で紹介した、編集機能の「テキストを短くする」やカスタマイズして「コメントを日本語で翻訳」も対応していました。

まとめ

今回はUnity Catalogのカタログ機能を用いて、kaggleコンペのテーブルデータの理解の促進を行いました。

kaggleのコンペを進める上で、事前に何のデータかわかっていると、EDA等が進めやすいと感じてました。
実際に開催されているkaggleコンペに出る際は、「AI生成」の機能を活用して、データの理解を深めていこうと思います。

今回の記事では「AI生成」で作成されたものにはマスクをかけています。
本記事で興味を持った方は、データをダウンロードし、ご自身の環境で文章の中身を確認してみてください!

なお次回以降のお話ですが、検討中です。
Unity Catalogをより深く掘っていくor Auto ML機能に着手するか迷い中です。

参考文献

AI生成の日本語訳に関して、Databricksの中の人が書いた記事がヒットし、参考にさせて頂きました。

2
2
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
2
2

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?