Databricks経由Machine Learningの旅第三話 -Unity Catalogの特徴を捉える-

Last updated at 2025-05-14Posted at 2024-12-08

はじめに

本記事はDatabricks アドベントカレンダー2024 9日目の記事です。

「Databricks経由Machine Learningの旅」の3回目になります。
(前回の更新から、約３ヶ月半が経ってしまいました.....楽しみにしていた方、すみません)

この連載の最終的なゴールとして、特徴量の拡張や膨大な学習データのインプットを行い、本格的なモデル構築を行いたいと考えております。

その中でデータカタログについて、大量のデータを使用する機械学習においてとても重要な要素の１つであり、予測モデルの構築にも影響を及ぼします。

今回は本格的な機械学習モデル構築を行う前準備として、DatabricksのデータカタログであるUnity Catalogについて整理をしたいと思います。

機械学習モデルを構築する上で、非常に有用な３つの特徴を取り上げます。
この特徴があると、モデル構築を行う上でかなり有利に働くことが多いと考えます。

１つ目の特徴として、非構造化データが構造化データをUnity Catalog上で同時に扱えることにあります。

まず非構造データに関してはボリュームに保存することが可能で、下記のように画像解析で使える.pngや自然言語処理で使えそうな.pdfも同時に扱えます。
以下のように、csvファイルと同じ置き場所で取り扱うことができます。

また構造化データについても、非構造化データと同じスキーマに入れることが可能で、カタログ機能としてコメントやデータの説明を記載することが可能です。

非構造と構造データを同じ場所で扱うことは、利用できるデータ幅を広げることが可能になります。

1.の機能に加え、置き場所が点在していた場合でも、Unity Catalogで一元的に管理ができます。

例えば、AWSのS3やAzureの環境にあるデータだったとしても、Unity Catalogと紐付けることができます。
下記のように、S3のpathを設定すればUnity catalog上にS3のデータを表示させることができます。

また、パートナーコネクタでもあるFivetranを活用し、対応コネクタのデータをDatabricksに転送することで、Unity Catalog上でデータを扱うことができます。

なお、TROCCOも転送先databricksに対応しておりSaaSを中心とした多様なデータをUnity Catalogで管理できるよう連携できます。

最後にリネージの機能が整備されていることです。

該当テーブルがどのテーブルとjoinしてできたのか？だけでなく、使用されているNotebookやworkflowについても特定することができます。

また、dbtとの連携が可能でもあり、dbtで作成したデータリネージをそのまま使うことができます。

今回はUnity Catalogについて機械学習モデルの構築に有用な機能についての整理を行いました。
取り上げた３つの機能からいえることとして「膨大なデータを扱う機械学習」に適しているなと考えています。

非構造化データを構造化データと同じ場所で扱えることもそうなのですが、AWSなどの外部にあるデータをDatabricks上で扱えることもデータのバリエーションを増やす上でとても重要だなと考えています。

次回はいよいよ本格的な機械学習モデルの構築に移っていきます。
細かい内容や予測対象は鋭意検討中です、お楽しみに！