はじめに
データカタログ系製品をまとめています。
基本的な機能はデータ統合、メタデータ管理、データ品質テスト、ガバナンス、リネージ (データの生成から消費までの流れを可視化)などです (製品によっては利用できない機能もあります)。
生成AIの発展もあり日進月歩ですので、随時更新していけたらと思います。
OSS
OpenMetadata
OSSということで無料 (サーバは別途用意が必要) ですが、かなり機能も豊富です。
一部機能 (PIIデータの自動検出など) が英語のみ対応となるので日本語データを扱う場合は要注意。
データソース側・出力側ともに対応した連携先が豊富です。
Airflow と連携されており、データ取得時の処理手順やスケジューリングなどのカスタマイズ性も高いです。
デメリットとしては OSS であるが故に導入や運用の負担がマネージドサービスと比べると高いこと、日本語資料が3大クラウドのものなどと比べると少ないことでしょうか。
Amazon Linux への導入は以下記事を参考にどうぞ。
クラウド (マネージドサービス)
Microsoft Purview
旧称 Azure Purview。
Microsoft 365 コンプライアンスセンターと統合され、機密データ管理などのセキュリティ面の機能が強化されました。
マイナンバーや口座番号を自動検出してタグ付けや暗号化を行うなどの機能があります。
「社外秘」などのキーワードを指定して検出することも可能です。
スキャンやオーナー割り当ての状況をダッシュボードで可視化します。
AWS Glue (Data Catalog)
Athena や Redshift Spectrum との親和性が高いものの、データの検索性が他の製品と比べると低いと思います (SQL をいちいち書く必要があるなど)。
カラム単位でコメントを記述することが可能ですが、テーブルやDB単位でのコメントはできないようです。コメントも長々と書くと見づらくなるので、wikiのような使い方はできなさそうです。
Amazon Q でどう進化するか注目ですね。まだ執筆時点では英語しか対応していないというハードルがあります。現状、Glueはマネジメントコンソールすら英語ですからね。
Jobの方は、GUIでETL処理を作成できるのは便利ですが、要件によっては結局 Python を書く必要に迫られるというか、大抵コーディングが必要になる気がします。
Google Cloud Dataplex (Data Catalog)
(使う機会があれば書きます)
Oracle Cloud Infrastructure Data Catalog
Oracle 製品との親和性が高いです。
が、調べてもそれ以上のメリットが特に見当たりませんでした...
他の理由で Oracle Cloud を利用していない限り使う機会はなさそうな印象です。
SaaS 製品
Insight Catalog
インサイトテクノロジー社が開発しているカタログ製品。
国産製品ということもあり、日本語に特化したAIが個人情報等を自動で検出してくれることが強み (例えばOpenMetadataは英語のルールベース)。
比較的後発の製品ということもあり、(執筆時点では) 品質テストやメタデータの履歴管理などの機能は存在しないものの、かなり速いペースで機能追加等のリリースがされています。
資料やサポートも日本語という安心感があります。
Informatica Data Catalog
データ分類や関連付け、検索にAIを利用しています。
デモを見ただけなので詳細は分かりませんが、UIはOpenMetadataと似ている感じがします。wikiでのコラボレーションや品質テストなど、出来ることも近しいですね。
ダッシュボードでデータ品質を可視化できるのはいいかもしれませんね。
HULFT DataCatalog
こちらもデモを見ただけですが、権限管理やリネージ可視化、コメント機能など必要最低限に絞っている印象です。
クラウド事業者のサービスが機能豊富すぎて学習コストが高いことと比べると、導入が楽な部分もあるかもしれません。
「スチュワード」ではなく「エキスパート」という言葉を使っているのが少し気になりますね。
(あと "Data Catalog" ではなく "DataCatalog" なのも気になりますね。)
まとめ
クラウド事業者のデータカタログサービス使うなら、そもそも分析環境に用いるクラウドと合わせてしまえばよさそうな感じがします。
強いて言えば AWS だけあまり使用感よくないですかね。データエンジニアはともかくビジネスユーザーが利用することを考えると、UIや使い勝手の良さも重要だなと思いました。
あと、やはりクラウド事業者のサービスは英語データを扱う前提ですので、日本語データをうまく扱いたいなら国産のSaaSも選択肢に入ってきそうです。
OpenMetadata は無料ですが、導入・運用の人件費と、そもそも動かすための環境 (サーバー) を用意する必要があるので、要注意ですね。