【Agentic RAG】 Claude for Desktop × Databricks Managed MCP serverで実現する「内部データ×公開情報」の融合分析 - 🚕NYCタクシー業界の隠れた真実を暴く

Last updated at 2025-08-03Posted at 2025-07-17

はじめに：なぜこの記事を書いたのか 📝

みなさん、企業の内部データを分析する時、こんな悩みを抱えたことはありませんか？🤔

「社内のデータだけじゃ、業界全体の文脈が見えない...」😔
「外部の研究結果と比較したいけど、手作業でやるのは大変...」😫

今回、Claude for Desktop 🖥️ と Databricks Managed MCP server🔧を使ったAgenticRAGを構築しこの問題を解決しました。Databricksの内部データとインターネット上の公開情報を自動的に融合させ、単独では見えなかった深い洞察を得ることができたのです。🎯

🎯 この記事で得られること

MCP Server経由でDatabricksに安全に接続する方法🔐
内部データと公開情報を組み合わせた高度な分析手法📊
AIが自動的に推測と事実を区別しながら分析レポートを作成する仕組み🤖
実際に動作する完全なHTMLレポートのコード💻

🔧 技術スタック

Claude for Desktop🖥️
Databricks Managed MCP server⚙️
Databricks Genie🧞

🔧 最近話題のAgentic RAGの連携イメージ

Agent(Claude)が内部情報をAgent(Genie)から入手する。🤝

Agentic RAGは今話題になってます。🔥

😭今後の検証課題

Claude for Desktopの代わりになるツールを探し、専用線を使ってDatabricks上のClaudeに直接接続できる方法を見つけることです。これが実現できれば、外部のClaudeにインターネット経由でデータが渡る心配がなくなります。🔒

🚀 実装方法：ステップバイステップ

Step 1: MCP Serverの設定 ⚙️

まず、Claude for DesktopでDatabricksに接続するためのMCP設定を行います。

{
  "mcpServers": {
    "uc-genie-mcp": {
      "command": "npx",
      "args": [
        "mcp-remote",
        "https://<ワークスペースホスト名>/api/2.0/mcp/genie/<GenieスペースID>",
        "--header",
        "Authorization: Bearer <パーソナルアクセストークン>"
      ]
    }
  } 
}

この設定により、Claude for DesktopからDatabricksのGenie SpaceにMCPで安全にアクセスできるようになります。✅

Step 2: 内部データの取得 📥

MCPを通じて、Databricksから実際のデータを取得します。内部で実行したクエリの一部をご紹介します：

-- 地域格差の分析
SELECT pickup_zip, COUNT(*) as trip_count 
FROM samples.nyctaxi.trips 
WHERE tpep_pickup_datetime >= '2016-02-01' 
  AND tpep_pickup_datetime < '2016-03-01' 
GROUP BY pickup_zip 
ORDER BY trip_count DESC 
LIMIT 10;

このクエリの結果、マンハッタンの特定のZIPコードに極端にトリップが集中していることが判明しました。📍

Step 3: 外部情報との融合 🔗

ここが最も革新的な部分です。Claudeは自動的に以下の処理を行いました：

内部データの分析結果を理解🧠
関連する外部情報を自動検索🔍
信頼できる情報源を選別（学術論文、公式統計など）📚
内部データと外部情報を統合して新たな洞察を生成💡

例えば、内部データで「ブロンクスのトリップ数が5件」という事実を発見した後、Claudeは自動的に以下の外部情報を見つけ出しました：

Columbia大学の研究：外周地区の57%が公共交通機関に依存🚇
NYC TLCの公式データ：グリーンタクシープログラムの影響🚖
学術論文：Uberの成長率（外周地区で597%増）📈

📊 7つの問題分析：詳細な発見

分析で明らかになった7つの主要な問題を詳しく見ていきましょう。

🏙️ 問題1: 極端な地域格差

外部情報との照合📋

Todd W. Schneider - 11億件のNYCタクシー&Uberトリップ分析

💰 問題2: 地域別料金格差の実態

外部情報との照合📋

NYC TLC公式料金：初乗り$3.00💵
空港エリアは一般的に高料金（Newark空港中央値$114）✈️

⏰ 問題3: ピーク時間の非効率性

外部情報との照合📋

研究によると、火曜日18時が週の最大ピーク🕕
16:30のシフトチェンジが人工的な供給不足を生む⚠️

🌱 問題4: 環境への影響

外部情報との照合📋

Columbia University - Clean Air Taxis Study

🚗 問題5: ライドシェアリングの破壊的影響

※メダリオンとはタクシー営業許可証の事📜

📊 問題6: データ分析の限界と課題

NYC TLC Trip Record Data

📅 問題7: 曜日別の需要変動

🎯 結論：2016年2月 - 転換点の記録

🎨 生成されたレポートの特徴

最終的に生成されたHTMLレポートには、以下の特徴があります：

完全にスタンドアロン：外部ファイルへの依存なし🔌
レスポンシブデザイン：モバイルからデスクトップまで対応📱💻
インタラクティブ：ホバーで詳細情報、クリックでフィルタリング🖱️
美しいビジュアル：グラスモーフィズム、アニメーション効果✨

🎯 実践的な応用例

この手法は、NYCタクシー業界だけでなく、様々な分野で応用可能です：

1. 小売業界 🛒

内部：POSデータ
外部：消費者トレンド、競合分析
洞察：隠れた購買パターンの発見

2. 製造業 🏭

内部：生産効率データ
外部：サプライチェーン情報、規制動向
洞察：最適化の機会発見

3. 金融業界 💳

内部：取引データ
外部：市場動向、規制変更
洞察：リスクの早期発見

🔧 実装のベストプラクティス

🎁 プロンプトの共有

最後に、今回使用したプロンプトを共有します。このプロンプトを使用することで、あなたも同様の分析を行うことができます：

# 🚕 NYCタクシーデータ分析レポート作成依頼 v2.0

## 🎯 ミッション
以下の情報からニューヨーク市タクシー業界の隠れた問題を発見・可視化する、技術者向けのインタラクティブHTMLレポートを作成する。
- Databricksの`sample_catalog.nyctaxi.trips_metric_view`メトリクスビューをMCP Serverでデータ取得して分析
- Databricksの`pdf_trips_parsed_vector_search_endpoint`ベクトルDBをMCP Serverで検索して分析
- Databricksの`sample_catalog.nyctaxi` Unity Catalogは配下関数をMCP Serverで検索して分析
- インターネットから関連する先行研究や世の中の状況を調べる

## 👤 役割設定
あなたは以下の専門性を持つエキスパートです：
- **タクシー業界コンサルタント**：NYC交通事情に15年以上精通
- **データサイエンティスト**：統計分析と機械学習の専門家
- **UX/UIデザイナー**：データビジュアライゼーションのスペシャリスト
- **フルスタックエンジニア**：HTML/CSS/JSの実装経験豊富

## 情報の優先順位
調査するデータは以下の優先順位で行ってください：
- Databricksの`sample_catalog.nyctaxi.trips_metric_view`メトリクスビュー
- Databricksの`pdf_trips_parsed_vector_search_endpoint`ベクトルDB
- Databricksの`sample_catalog.nyctaxi` Unity Catalog配下の関数
- インターネットから関連する先行研究や世の中の状況


## 📋 絶対厳守ルール

### 1. データソース管理
【必須】全ての分析結果に以下を明記：
- Databricksデータの場合：「出典：sample_catalog.nyctaxi.trips_metric_view or pdf_trips_parsed_vector_search_endpoint or sample_catalog.nyctaxiは以下の関数」
- 外部情報の場合：「出典：[具体的なURL]」
- 推測の場合：「【推測】」タグを冒頭に付与

### 2. 出力仕様
- **ファイル形式**：単一の`.html`ファイル（外部ファイル参照なし）
- **文字コード**：UTF-8
- **言語**：日本語100%（変数名・コメント含む）
- **対象読者**：Databricks愛好家エンジニア（技術的詳細を歓迎）

### 3. 品質基準
- グラフ最低**7個**以上（各問題に1つ以上）
- 読み込み時間3秒以内
- モバイル対応必須

## 🔍 分析プロセス

### Phase 1: データ理解（15分）
-- 実行すべきクエリ例
-- 1. スキーマ確認
DESCRIBE samples.nyctaxi.trips;

-- 2. データ期間
SELECT MIN(pickup_datetime), MAX(pickup_datetime), COUNT(*) 
FROM samples.nyctaxi.trips;

-- 3. 欠損値チェック
SELECT 
  SUM(CASE WHEN fare_amount IS NULL THEN 1 ELSE 0 END) as fare_nulls,
  SUM(CASE WHEN tip_amount IS NULL THEN 1 ELSE 0 END) as tip_nulls
FROM samples.nyctaxi.trips;

### Phase 2: 問題発見（30分）
**必須分析項目**（各項目で具体的な数値を算出）：

1. **需給ギャップ分析**
   - 時間帯別の供給不足エリア
   - 曜日別パターンの違い

2. **料金異常検知**
   - 外れ値（3σ以上）の特定
   - 不正料金の可能性

3. **地域格差分析**
   - マンハッタン vs 他地区
   - チップ率の地域差

4. **時間効率問題**
   - 渋滞による収益性低下
   - 空車時間の分析

5. **季節性・イベント影響**
   - 天候との相関
   - 大型イベント時の異常

6. **ドライバー行動分析**
   - 収益最大化パターン
   - 非効率な運行ルート

### Phase 3: 検証（15分）
以下のキーワードで外部情報を検索し、分析結果を検証：
- "NYC taxi data analysis 2016"
- "New York taxi problem"
- "NYC taxi fare patterns"

## 🎨 HTML実装要件

### 必須構造
<!DOCTYPE html>
<html lang="ja">
<head>
    <meta charset="UTF-8">
    <meta name="viewport" content="width=device-width, initial-scale=1.0">
    <title>NYCタクシー業界の隠れた問題 - Databricks分析レポート</title>
    
    <!-- 必須ライブラリ（CDN） -->
    <script src="https://cdn.jsdelivr.net/npm/chart.js"></script>
    <script src="https://d3js.org/d3.v7.min.js"></script>
    
    <style>
        /* 必須スタイル要素 */
        :root {
            --primary: #FFC107; /* NYCタクシーイエロー */
            --secondary: #212529;
            --accent: #00BCD4;
        }
        
        /* グラスモーフィズム */
        .glass-card {
            background: rgba(255, 255, 255, 0.1);
            backdrop-filter: blur(10px);
            border: 1px solid rgba(255, 255, 255, 0.2);
            border-radius: 20px;
            padding: 2rem;
            margin: 2rem 0;
        }
        
        /* アニメーション */
        .fade-in {
            animation: fadeIn 0.8s ease-in;
        }
        
        @keyframes fadeIn {
            from { opacity: 0; transform: translateY(20px); }
            to { opacity: 1; transform: translateY(0); }
        }
    </style>
</head>
<body>
    <!-- ヒーローセクション -->
    <header class="hero">
        <h1>🚕 NYCタクシー業界の隠れた真実</h1>
        <p class="subtitle">Databricks samples.nyctaxi.trips データ分析レポート</p>
    </header>
    
    <!-- サマリーカード（3枚） -->
    <section class="executive-summary">
        <!-- 主要発見をカード形式で -->
    </section>
    
    <!-- データソース情報 -->
    <section class="data-source">
        <h2>📊 データソース情報</h2>
        <div class="source-info">
            出典：Databricks samples.nyctaxi.trips<br>
            期間：[具体的な期間]<br>
            総レコード数：[具体的な数値]
        </div>
    </section>
    
    <!-- 問題分析（6セクション以上） -->
    <section class="problem-analysis">
        <!-- 各問題に対して -->
        <article class="problem-card glass-card">
            <h3>問題1: [具体的な問題名]</h3>
            <div class="chart-container">
                <canvas id="chart1"></canvas>
            </div>
            <div class="insights">
                <p><strong>データ分析結果：</strong></p>
                <p>出典：samples.nyctaxi.trips</p>
                <ul>
                    <li>具体的な数値を含む発見</li>
                </ul>
                <p class="speculation">【推測】この傾向は...</p>
            </div>
        </article>
    </section>
    
    <!-- 外部検証 -->
    <section class="external-validation">
        <h2>🔍 外部情報との照合</h2>
        <!-- URLリンク付きで引用 -->
    </section>
    
    <!-- インタラクティブ要素 -->
    <script>
        // グラフ初期化
        document.addEventListener('DOMContentLoaded', function() {
            // Chart.js実装
            // ツールチップ、ズーム機能追加
        });
    </script>
</body>
</html>

### デザイン必須要素
1. **ニューヨークテーマ**
   - タクシーイエロー（#FFC107）を基調
   - 摩天楼をイメージした縦長レイアウト
   - ネオンサイン風のアクセント

2. **インタラクティブ機能**
   - グラフホバーで詳細表示
   - クリックでデータフィルタリング
   - スムーズスクロールナビゲーション

3. **レスポンシブ対応**
   - モバイル：1カラム
   - タブレット：2カラム
   - デスクトップ：3カラムグリッド

## ✅ 最終チェックリスト

### 必須確認項目
- [ ] ファイル拡張子は`.html`
- [ ] 全文日本語（コメント含む）
- [ ] グラフ7個以上実装
- [ ] Databricksから「samples.nyctaxi.trips」のデータをMCPサーバー経由で取得し、分析を行
- [ ] 各分析に「出典：samples.nyctaxi.trips」明記
- [ ] 推測部分に【推測】タグ
- [ ] 外部参照URLは全てリンク化
- [ ] Chart.jsとD3.js両方使用
- [ ] グラスモーフィズム効果実装
- [ ] モバイル表示確認
- [ ] 読み込み3秒以内

### エラー防止チェック
- [ ] 文字化けなし（UTF-8確認）
- [ ] JavaScriptエラーなし
- [ ] 全グラフ正常表示
- [ ] リンク切れなし

## 🚀 実行開始前の確認

実行前に以下を質問してください：
1. 「分析で特に注目してほしい問題領域はありますか？」
2. 「グラフの配色に希望はありますか？」
3. 「追加で含めたい技術的詳細はありますか？」

---
**注意**: このプロンプトは1回の実行で完璧な成果物を生成するよう設計されています。指示に従い、ステップバイステップで着実に進めてください。

一回目のプロンプトで正しい回答が返ってこない場合は以下をプロンプトしてください！

- なんでファイル拡張子は`.html`でない？
- なんで全文日本語（コメント含む）でない？
- なんでグラフ7個以上実装でしてない？
- なんでDatabricksから「sample_catalog.nyctaxi.trips_metric_view」のデータをMCPサーバー経由で取得し、分析をしてない？
- なんでDatabricksから「pdf_trips_parsed_vector_search_endpoint」のデータをMCPサーバー経由で取得し、分析をしてない？
- なんでDatabricksから「sample_catalog.nyctaxi」は以下の関数からのデータをMCPサーバー経由で取得し、分析をしてない？
- なんでインターネットから先行研究を取得して、分析していない？
- なんで各分析に「出典：sample_catalog.nyctaxi.trips_metric_view」明記してない？
- なんで各分析に「出典：pdf_trips_parsed_vector_search_endpoint」明記してない？
- なんで各分析に「出典：sample_catalog.nyctaxiは以下の関数」明記してない？
- なんで各分析に「出展：インターネットでの検索サイト」明記していない？
- なんで推測部分に【推測】タグ付与してない？
- なんで外部参照URLは全てリンク化してない？
- なんでChart.jsとD3.js両方使用してない？
- なんでグラスモーフィズム効果実装してない？
- なんでモバイル表示確認してない？
- なんで読み込み3秒以内できない？
- なんで以下の優先順位で調査していない？
-- 1.Databricksの`sample_catalog.nyctaxi.trips_metric_view`メトリクスビュー
-- 2.Databricksの`pdf_trips_parsed_vector_search_endpoint`ベクトルDB
-- 3.Databricksの`sample_catalog.nyctaxi` Unity Catalog配下の関数
-- 4.インターネットから関連する先行研究や世の中の状況

まとめ：新しい分析の時代へ 🌟

この手法の最大の価値は、人間には不可能な規模とスピードで、複数の情報源を統合できることです。数千のデータポイントと数百の研究論文を瞬時に分析し、関連性を見出すことができるのです。⚡

ぜひ、みなさんの組織でもこの手法を試してみてください。きっと、新しい発見があるはずです。💎

参考リンク🔗

タグ: #Claude #Databricks #MCP #DataAnalysis #AI #ビッグデータ #データ分析 #機械学習 🏷️

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up