IBM の watsonx.data Premium では、キュレーション機能により、PDF やテキストなどの非構造化データを取り込み、構造化・検索可能な形式へ変換できます。
具体的には、抽出されたエンティティ情報は Iceberg テーブルとして管理され、本文テキストはベクトルデータベースに格納されます。これらのデータは Document Library 上で一元管理され、RAG の参照データとして活用できる仕組みです。
watsonx.data Premium による非構造化データ取り込み機能の詳細については、以下の記事をご参照ください。
watsonx.data では、Model Context Protocol(MCP)に準拠した remote MCP server が提供されています。これにより、Document Library に登録された Document Set、Presto テーブルなどのデータ資産に対して、外部アプリケーションや AI エージェントから安全にアクセスできます。
本記事では、MCP サーバーを経由して watsonx.data Premium 上で作成した非構造化データアセットを活用する手順を紹介します。あわせて、実際にどのようなことが可能になるのかも確認します。
MCP サーバーで利用できるツール
watsonx.data の MCP サーバーは、Document Library、Document Set、Presto テーブルなどのデータ資産に対して、自然言語ベースで操作を行うためのツール群を提供しています。
公式ドキュメント:
MCP サーバーには、以下のツールが用意されています。
| ツール名 | 機能概要 |
|---|---|
| LIST_DOCUMENT_LIBRARY | 利用可能な Document Library の一覧およびメタデータを取得 |
| QUERY_DOCUMENT_LIBRARY | 指定した Document Library に対して自然言語検索を実行 |
| LIST_DOCUMENT_SET | Document Library 内の Document Set 一覧およびメタデータを取得 |
| QUERY_DOCUMENT_SET | 指定した Document Set に対して自然言語検索を実行 |
| LIST_DATA_ASSETS | 指定された Presto 接続情報に基づき、利用可能なテーブル一覧を取得 |
| QUERY_DATA_ASSETS | 指定した Presto テーブルに対して自然言語クエリを実行し、結果を取得 |
これらのツールを利用することで、RAG 用の文書検索だけでなく、Presto テーブルに対しても自然言語でアクセスできるようになります。つまり、非構造化データと構造化データの両方を LLM ベースのエージェントから横断的に活用できるようになります。
前提条件
本記事では、watsonx.data Premium(SaaS 環境) を使用します。
あらかじめ watsonx.data Premium 上で作成済みの Document Library を利用します。

非構造化データのキュレーションおよび Document Library の作成方法については、以下の記事を参考にしてください。本記事で使用するドキュメントデータも、同記事で紹介されているサンプルデータを利用しています。
また今回は、GUI で動作を確認しやすいように Langflow を使用します。 Astra には無料プランが用意されているため、気軽に試すことができます。
以下のページから Astra のアカウントを作成できます。
https://astra.datastax.com/signup
本記事では Langflow を使用していますが、利用する認証情報や接続設定の値は共通です。
そのため、Langflow 以外のツールを使用する場合でも、同様の設定で接続できます。
Bearer Token を取得する
認証方式として Bearer Token を使用します。
Bearer Token の取得方法については、公式ドキュメント を参照してください。
ここでは、手順を簡単に紹介します。
まず、watsonx.data Premium 環境 で利用する API 鍵を取得します。
取得方法は以下の記事が参考になります。
取得した API 鍵を使用して、IBM Cloud CLI から watsonx.data Premium が有効化されている IBM Cloud 環境にログインします。
ibmcloud login --apikey <watsonx.data Premium 環境の API 鍵>
ログイン後、以下のコマンドを実行して Bearer Token を取得します。
ibmcloud iam oauth-tokens
出力例:IAM トークン: Bearer eyJraWQi...
このうち、Bearer eyJraWQi... の文字列全体が Bearer Token です。
後ほど MCP サーバー接続時に使用するため、この値を控えておきます。
Presto の接続情報を取得する
Presto テーブルを MCP 経由で操作するには、Presto の エンジン ID と インスタンス CRN が必要です。
まず、watsonx.data の インフラストラクチャー・マネージャー から 対象の Presto エンジンを選択し、詳細画面を開きます。

表示されている エンジン ID を控えておきます。
続いて、画面内の 「接続の詳細を見る」 をクリックします。

表示された接続情報の中から インスタンス CRN を確認し、記録しておきます。
取得した エンジン ID と インスタンス CRN は、後ほど MCP ツールを利用して Presto テーブルへアクセスする際に使用します。
MCP サーバーの接続
ここからは、Langflow 上で watsonx.data Premium の MCP Tool を利用するための接続設定を行います。
まず、MCP Tools ノードをキャンバスに配置し、「Add MCP Server」 をクリックします。
フォームに以下の内容を入力します。
- Name:
wcd-mcp(任意の名前) - HTTP/SSE URL:
https://console-ibm-cator.lakehouse.saas.ibm.com/api/v2/mcp/ - Headers:
- Key:
authorization - Value:前の手順で取得した Bearer Token
- Key:
※ URL は、watsonx.data Premium のリージョンに応じたものを指定してください。2026 年 2 月 26 日時点ではトロントリージョンのみ提供されているため、本記事ではトロントの URL を使用しています。
Tool Mode を ON にします。

watsonx.data Premium で用意されている Tool が Actions に表示されます。
Actions の横にあるアイコンをクリックすると、ツールの詳細を確認できます。

接続した MCP Server のツール一覧が表示されます。
チェックボックスで、利用するツールを選択・変更できます。
これで、Langflow から watsonx.data Premium の MCP サーバーへ接続できる状態になります。
Agent を構築して試してみる
Langflow で最小構成の Agent を作成し、Tool の動作を検証します。

今回は簡易検証のため、Agent Instruction に Presto の接続情報をあらかじめ設定し、Tool 呼び出し時に必要な接続パラメータをプロンプト側で補完できるようにしています。
You are a helpful assistant that can use tools to answer questions and perform tasks.
When calling wxd-mcp tools, you include the following parameters:
presto_engine_id: < 取得したエンジンID >
presto_instance_crn: < 取得したインスタンス CRN >
まずは、Document Library の一覧取得を実行してみます。

実行の詳細を確認すると、LIST_DOCUMENT_LIBRARY が呼び出され、ライブラリーの一覧を取得していることが確認できます。

実行の詳細を確認すると、LIST_DATA_ASSETS が実行され、Presto 接続情報を使用してテーブル一覧を取得していることがわかります。

最後に、複数の Tool の組み合わせを要する複雑なタスクを依頼してみます。

実行詳細を確認すると、複数の Tool を組み合わせて段階的に処理が実行されていることが確認できます。
処理は以下の流れで実行されています。
-
LIST_DATA_ASSETSを実行し、請求書データが格納されているテーブルを特定 - 特定したテーブルに対して
QUERY_DATA_ASSETSを実行 -
iceberg_data.udc_schema.Invoiceに対して SQL クエリを発行
実際に実行されたクエリは以下の通りです。
SELECT invoice_id, billing_customer, total_amount
FROM iceberg_data.udc_schema.Invoice
ORDER BY total_amount DESC
このように Tool を組み合わせることで、実データに基づいた複雑なタスクを段階的に実行できることが確認できました。
まとめ
本記事では、watsonx.data Premium で提供されている remote MCP server を活用し、外部ツールからデータ資産へアクセスする方法を検証しました。
その結果、MCP サーバーを介することで、AI エージェントが watsonx.data 上の非構造化データ(ベクトルデータ)と構造化データ(Presto 経由のテーブル)を横断的に扱い、実データに基づいたタスクを自律的に実行できる ことを確認しました。
今回は最小構成の Agent による検証にとどまりましたが、Tool の組み合わせやプロンプト設計を工夫することで、より高度かつ実践的なデータ活用シナリオへ発展させることが可能です。今後は、より複雑なユースケースへの適用や、実運用を想定した構成についても検証していきたいと思います。







