本書は抄訳であり内容の正確性を保証するものではありません。正確な内容に関しては原文を参照ください。
本日、様々なユースケースにおける自然言語のアクセスを強化するために、皆様のビジネスとデータのユニークなニュアンスを学習する知識エンジンであるLakehouseIQを発表できることを嬉しく思っています。皆様の組織のすべての従業員は、自然言語でデータを検索、理解、クエリーするためにLakehouseIQを活用することができます。LakehouseIQは、皆様のビジネス用語やユニークなデータ環境を理解するために、皆様のデータ、使用パターン、組織チャートをに関する情報を活用し、素朴に大規模言語モデル(LLM)を利用するよりもはるかに優れた回答を提供します。
もちろん、大規模言語モデルはデータに対する言語のインタフェースを提供することが期待されており、すべてのデータ企業はAIアシスタントを追加しています。しかし、実際にはこれらのソリューションの多くは企業のデータには到達していません。すべての企業にはビジネス上の質問に応えるために必要な固有のデータセット、用語、内部知識が存在しており、質問に回答するためにインターネットの情報でトレーニングされたLLMをシンプルに呼び出すだけでは、間違った回答をもたらしてしまいます。「お客様」や会計年度の定義のようなシンプルなものでさえ、企業によって異なります。
LakehouseIQは、皆様の企業のビジネスやデータのコンセプトを自動で学習することで、この問題を直接解決する、この種類では初の知識エンジンです。これは、Unity Catalog、ダッシュボード、ノートブック、データパイプライン、ドキュメントを含むDatabricksレイクハウスプラットフォームからの信号を活用し、実際にどのようにデータが活用されているのかを知るために、Databricksプラットフォームのユニークなエンドツーエンドの特性を活用します。これによって、LakehouseIQは皆様の企業向けに高度に正確で特化されたモデルを構築します。
我々は、クエリーからトラブルシュートに至るDatabricksにおける新たな自然言語のインタフェースの様々な部分を強化するためにLakehouseIQを活用しています。そして、さらに重要なことですが、自動でトレーニングされた知識をお客様が活用するために自分たちのAIアプリを構築できるように、この機能をAPI経由で公開しています。我々は企業においてこの種の知識エンジンが、次世代のソフトウェアスタックの重要なコンポーネントになると信じています。
自然言語のクエリー
多くのDatabricksユーザーが目撃する最初のAIの表出は、クエリーを記述し、それらを説明し、質問に回答することができるSQLエディタやノートブックにおける新たなアシスタントです。これによってすでに我々のユーザーは数百時間を削減します。それぞれのアクティビティに適したデータを見つけ出して理解し、正確な回答を提供するために、このアシスタントは大きくLakehouseIQに頼っています。LakehouseIQのような知識エンジンなしには、皆様の企業でデータがどのように活用されているのかをLLMは多くのケースで理解することができません。例えば、以下のクエリーでは、LakehouseIQがオフにされた我々のアシスタントは、「Europe」というセールステリトリーの検索を行いましたが、この企業では実際は北と南の2つのヨーロッパのテリトリーがあることを知らないため、結果が返ってきません。LakehouseIQバージョンは、この情報を知っているだけではなく、このデータセットを活用する他のクエリー、ダッシュボード、ノートブックから学習することで、内部で使用されているデータを除外するためのフィルターを自動で追加しています。
LakehouseIQによる検索
また、LakehouseIQはDatabricks製品内の検索を劇的に強化しています。我々の新たな検索エンジンはデータを検索するだけではなく、解釈を行い、アクション可能で文脈に基づいたフォーマットに調整して表示することで、すべてのユーザーが迅速にデータを活用し始めることができるようになります。我々のいくつかの内部データの例では、LakehouseIQはDatabricksでは、サーバレスのコードネームが「Nephos」であり、「DBUs」使用量の指標であることを理解しているので適切な結果を表示しています。また、テーブルごとの人気度、鮮度、頻繁にアクセスするユーザーも表示しています。
管理とトラブルシュート
また、我々はLakehouseIQをレイクハウスの様々な管理ワークフローに組み込んでいます。例えば、自動提案によってデータセットに対して意味のあるコメントを容易に取得することができ、より多くのドキュメントを追加する子ほど、LakehouseIQはこのデータをより良く活用できるようになります。また、LakehouseIQはジョブ、データパイプライン、SparkやSQLのクエリーを理解、デバッグ(例: 上流のジョブが失敗したためデータセットが不完全かもしれないことを伝える)することができ、ユーザーがいつ問題が起きているのかを特定する助けとなります。
LakehouseIQ API: 皆様のエンタープライズAIアプリケーションを強化
LakehouseIQ知識エンジンは、正確であり、結果がレイクハウスにおける生成AI機能によって生み出されるという違いがありますが、企業でも多くのカスタムアプリを開発したいと思うことでしょう。これらのアプリもLakehouseIQの知識を活用できるように、LangChainのようなLLMアプリケーションフレームワークでのインテグレーションを含め、APIを通じて主要な機能を後悔します。リッチで皆様のビジネスに立脚したアプリを構築するために、お使いのAIアプリは、レイクハウス上の皆様のデータやドキュメントに対して自然言語で会話を行えるようになります。
ガバナンスとセキュリティ
LakehouseIQは、DatabricksのデータやAIに対するセキュリティ、ガバナンスのフラッグシップのソリューションであるUnity Catalog常に構築され、管理されます。LakehouseIQを使う際、皆様のユーザーはUnity Catalogでアクセスできるデータセットのみを参照しますので、新たなセキュリティの頭痛に悩むことなしに、多くのユーザーに対してデータ分析を公開することができます。AIベースの自動データ分類、モニタリング、外部システムに対するレイクハウスのフェデレーションのような本日発表する他の機能と組み合わせることで、LakehouseIQは皆様の企業におけるすべてのデータを民主化します。
次のステップ
我々はLakehouseIQがこれまでにないデータの民主化時代の夜明けだと信じています。LakehouseIQの洗練された言語能力と、深い文脈の理解を活用することで、Databricksは会話型のフォーマットですべてのデータソースに対する膨大な洞察を提供し、データとのやり取りの方法に革命をもたらします。我々は単にデータにアクセスできるようにするだけではありません。われわれはそれを分かりやすく、アクション可能にし、より価値のあるものにします。今年を通じて様々なLakehouseIQの機能をロールアウトするつもりで、皆様のフィードバックを楽しみにしています。
Data + AI SummitにおけるLakehouseIQの実践を見逃さないようにしてください。