What is a data intelligence platform | Databricks Blogの翻訳です。
本書は抄訳であり内容の正確性を保証するものではありません。正確な内容に関しては原文を参照ください。
AIがどのようにデータプラットフォームを根本的に変革するのか、データがどのようにエンタープライズAIを変革するのかに関する我々の視点
ソフトウェアが世界を食べているという観察がモダンな技術産業を形作っています。現在では、ソフトウェアは身につける時計から、住宅、工場や農場など我々の生活の至る所に存在しています。Databricksにおいて我々はまもなくAIがソフトウェアを食べてしまうと信じています。すなわち、過去数十年に構築されたソフトウェアは、インテリジェントになり、データを活用することでよりスマートなものとなります。このような示唆は広範で多岐に渡り、カスタマーサポートからヘルスケア、教育など全てに影響を及ぼすものと言えます。
この記事では、AIがどのようにデータプラットフォームを変革するのかに関する見解を述べます。データプラットフォームに対するAIのインパクトはインクリメンタルなものではなく、根本的なものであることを議論します: データへのアクセスの大規模な民主化、手動管理の自動化、カスタムAIアプリケーションのターンキーでの作成などがあります。これらすべては、企業のデータを深く理解する統合プラットフォームの新たな波によって実現されることでしょう。この新世代のシステムをデータインテリジェンスプラットフォームと呼びます。
これまでのデータプラットフォームとその課題
データウェアハウスは、1980年代に企業における構造化されたビジネスデータを整理するためのソリューションとして出現しました。しかし、企業は2010年までには、AIのような様々なユースケースをサポートするために膨大な量の非構造化データを集め始めることになりました。これに対応するために、すべてのタイプのデータに対してオープンかつスケーラブルなシステムとしてデータレイクが導入されました。2015年までには、ほとんどの企業でデータウェアハウスとデータレイクの両方を運用することが一般的になりました。しかし、この二重のプラットフォームのアプローチは、ガバナンス、セキュリティ、信頼性、管理の面で様々な課題をもたらすことになりました。
5年前、Databricksは両方の世界のベストな部分を結合するために、レイクハウスというコンセプトを生み出しました。レイクハウスはオープンなフォーマットですべてのデータを格納、制御し、BIからAIに至るワークロードをネイティブでサポートします。当初はレイクハウスは以下のための統合システムを提供していました:
- 組織のすべてのデータソースを一緒にクエリーする
- 統合された方法でデータを使用するすべてのワークロード(BIやAIなど)を管理する
レイクハウスはデータプラットフォームの一カテゴリーとなり、企業に広く導入され、ほとんどのベンダーのスタックに組み込まれています。
このような進歩にもかかわらず、市場にあるすべての現行のプラットフォームは依然として幾つかの主要な課題に直面しています:
- 技術スキルの障壁: データのクエリーにはSQL、Python、BIにおける専門知識が必要であり、学習曲線が急峻なものとなります。
- データの精度とキュレーション: 大企業においては適切で正確なデータを見つけ出すことは困難であり、高価なキュレーションと計画が必要となります。
- 管理の複雑性: データプラットフォームにおいてはコストが急増し、高い技術力を持つ人材によって管理されない場合には、貧弱なパフォーマンスを体験することになります。
- ガバナンスとプライバシー: 世界中のガバナンス要件は急速に進化しており、AIの進化によって、リネージ、セキュリティ、プライバシーに関する懸念が強まっています。
- 勃興するAIアプリケーション: ドメイン固有のリクエストに回答する生成AIアプリケーションを実現するためには、企業は自身のデータから分離されたプラットフォームでLLMを開発、チューニングする必要があり、手動のエンジニアリングを通じて自分たちのデータを接続する必要があります。
これらの問題の多くは、データプラットフォームが根本的に企業のデータを理解しておらず、どのように活用するのかを知らないために生じています。幸運なことに、生成AIはまさにこれらの課題に取り組むためのパラフルな新たなツールを提供します。
データインテリジェンスプラットフォームの背後にあるコアのアイデア
データインテリジェンスプラットフォームは、企業のデータの背マンティクスを深く理解するためにAIモデルを活用することで、データ管理に革命をもたらします。我々はこれをデータインテリジェンスと呼びます。これらはレイクハウスの基盤上に構築されています - 企業のすべてのデータをクエリー、管理するための統合システム - しかし、新たな能力を追加するためにデータ(コンテンツとメタデータ)とその使用方法(クエリー、レポート、リネージなど)を自動で分析します。このようなデータの深い理解を通じて、データインテリジェンスプラットフォームは以下を実現します:
- 自然言語によるアクセス: AIモデルを活用することで、DIプラットフォームでは、それぞれの企業の専門用語や略語に対応する形で自然言語でデータを操作することができます。このプラットフォームは企業の用語を学習するために既存のワークロードでどのようにデータが活用されているのかを観察し、非専門家からデータエンジニアに至るすべてのユーザーに対して仕立てられた自然言語のインタフェースを提供します。
- 意味論に基づくカタログ作成と検索: 生成AIは、比類なき検索機能を提供するためや自動でデータの利用法を特定するために、それぞれの企業のデータモデル、メトリクス、KPIを理解することができます。
- 自動化された管理と最適化: AIモデルはデータの利用法に基づいてデータのレイアウト、パーティショニング、インデックスを最適化することができ、手動での調整や設定変更の必要性を削減します。
- 強化されたガバナンスとプライバシー: DIプラットフォームでは自然言語を用いて管理をシンプルにしつつも、センシティブなデータを自動で検知、分類し、誤用を防ぎます。
- AIワークロードに対するファーストクラスのサポート: DIプラットフォームは、適切なビジネスデータに接続できるようにすることで、すべての企業AIアプリケーションをエンハンスし、正確な結果をデリバリーするためにDIプラットフォームによって学習されたせマンティクス(メトリクス、KPIなど)を活用します。AIアプリケーション開発者は不安定なプロンプトエンジニアリングを通じて、インテリジェンスを「ハック」する必要はありません。
何人かの方は、過去数年を通じてBIツールが追加した自然言語のQ&A機能と何が違うのか不思議に思うかもしれません。BIツールは全体的なデータワークロードの(重要ですが)ほんの一部を表現するに過ぎず、このため、生じているワークロードの大部分に対する可視性や、データリネージ、BIレイヤーに到達する前の利用法に対する可視性を持ちません。これらのワークロードに対する可視性無しには、必要な事柄を理解する深いセマンティクスを構築することはできません。このため、これらの自然言語のQ&A能力は広く導入されていないのです。データインテリジェンスプラットフォームによって、より豊富な機能を活用できるようにBIツールは背後のAIモデルを活用できるようになります。だからこそ、我々はこのようなコア機能はデータプラットフォームの中に存在することになるであろうことを信じているのです。
データインテリジェンスプラットフォームとしてのDatabricks
Databricksにおいて、我々はデータレイクハウス上にデータインテリジェンスプラットフォームを構築しており、それぞれ固有の機能を追加していく中で、これまで以上にデータプラットフォームにおけるAIの可能性に興奮するようになっています。我々は、以下の機能を持つ市場で唯一のプラットフォームとしてのDatabricksレイクハウスに既存のユニークな機能を構築しています。
- データとAIに対する統合ガバナンスレイヤー
- ETL、SQL、機械学習、BIに対する単一の統合クエリーエンジン
さらに、我々がDatabricksIQと呼ぶデータインテリジェンスエンジンはプラットフォームのすべてのパーツを強化し、その中のAIモデルを生成するために買収したMosaicMLを活用しています。
DatabricksIQはすでに、我々の現行のスタックの様々なレイヤーに浸透しています。以下の用途で活用されています:
- 自動でのカラムインデックス、パーティションのレイアウトを含むプラットフォームにおける調整ノブの追加によって、レイクハウスの基盤をさらに強固なものにします。これによって、お客様にTCO削減と優れたパフォーマンスを提供します。
- Unity Catalog(UC)のすべてのデータ資産に対する説明文やタグを自動で追加することで、UCのガバナンスを改善します。プラットフォーム全体が専門用語、略語、メトリクス、セマンティクスを理解できるようにするために、これらが活用されます。これによって、すぐれた意味論に基づく検索、AIアシスタントの品質の改善、ガバナンス能力の改善を実現します。
- AIアシスタントにおけるPython、SQLの生成の改善によって、テキストからSQL、テキストからPythonの両方を強化します。
- 我々のPhotonクエリーエンジンにおけるクエリー計画にデータに関する予測を組み込むことで、クエリーをさらに高速にします。
- Delta Live Tablesとサーバレスジョブの内部で、ワークロードに関する予測に基づいた最適なオートスケーリングを提供し、コストを最小化します。
最後になりますがより重要なことです。我々はデータインテリジェンスプラットフォームが、企業におけるAIアプリケーションの開発を劇的にシンプルなものすると信じています。我々は、企業の皆様のデータを理解するAIアプリケーションの作成を容易にするために、DatabricksIQを我々のAIプラットフォームであるMosaic AIに直接組み込んでいます。今では、直接企業データをAIに組み込むために、Mosaic AIは以下を含む機能を提供しています:
- あなたのカスタムデータに対する高品質会話エージェントを構築するためのエンドツーエンドのRAG(Retrieval Augmented Generation)を提供しており、「記憶」のためにDatabricksのベクトルデータベースを活用しています。
- 企業のデータをベースとしてスクラッチからトレーニングするカスタムモデルや、対象ドメインの深い理解を持つAIアプリケーションをさらに強化するためにMPTやLlama 2のような既存モデルに対する継続的な事前学習。
- 皆様の企業データに対して効率的かつセキュアなサーバレス推論。Unity Catalogのガバナンスや品質モニタリング機能への接続。
- 人気のあるMLflowオープンソースプロジェクトをベースとしたエンドツーエンドのMLOps。生成されるすべてのデータは自動でアクション可能なものとなり、レイクハウスで追跡、監視することが可能です。
サマリー
我々は、AIがすべてのソフトウェアを変革し、データプラットフォームがAIを通じてイノベーションが生じる最も成熟した領域のひとつになると信じています。過去を振り返ると、データプラットフォームはエンドユーザーがアクセスするのが困難で、データチームが管理、制御することも困難でした。データインテリジェンスプラットフォームは、これらの課題の両方、データをよりクエリーしやすく、かつ、管理や制御をしやすくするということに直接取り組むことで、このランドスケープを変革することを目的としています。さらに、データとその用法に対する深い理解は、そのようなデータを取り扱う企業AIアプリケーションの基盤となることでしょう。AIがソフトウェアの世界を再構成することで、すべての業界のリーダーが自分たちの組織を強化するためにデータとAIを深く活用する存在になるだろうと我々は信じています。DIプラットフォームはそのような企業の基盤となり、品質、スピード、俊敏性を持つ次世代のデータ&AIアプリケーションを作成できるようにします。
2013の感謝祭を楽しむDatabricksの創業者たち