【脱API課金】M4 Max × ローカルDeepSeek × Perplexityで作る、自律型・多言語RAGパイプラインの構築手順

Posted at 2026-02-26

大規模言語モデル（LLM）を活用した多言語メディアの運用や自動化パイプラインの構築において、エンジニアが直面する壁は主に2つあります。
1つは 「最新情報の取得（ハルシネーションの防止とグラウンディング）」 、もう1つは 「スケーリングに伴う莫大なAPIトークンコスト」 です。

本記事では、外部APIへの依存を最小限に抑え、Apple M4 Max（36GBメモリ）のローカルコンピュートリソースとPerplexity APIを組み合わせることで、月額数十円のランニングコストで稼働する「完全自律型の多言語RAG（検索拡張生成）アーキテクチャ」の構築手順とその技術的詳細を解説します。

1. アーキテクチャの全体像と設計思想

本システムは 「情報は安く買い、重い思考と処理はエッジ（ローカル）で実行する」 という思想に基づいています。
LLMのAPIに従量課金で「長文を書かせる」ことは、エンタープライズの自動化において利益率を著しく圧迫するアンチパターンです。

オーケストレーション: n8n
グラウンディング（事実抽出）: Perplexity API (sonarモデル)
推論・生成・翻訳: Ollama (DeepSeek-R1-Distill-Qwen-32B) + Dify (ローカルホスト)
フロントエンド/CMS: Next.js / Sanity CMS

2. ローカルLLM環境の構築（M4 MaxのVRAM最適化）

多言語翻訳や複雑なSOP（標準作業手順）の実行には、推論能力の高いモデルが必要です。今回は、軽量かつ高性能なDeepSeek-R1-Distill-Qwenを採用します。

Apple Silicon（M4 Max / 36GBユニファイドメモリ）の強みは、広帯域なメモリをVRAMとしてフル活用できる点にあります。4bit量子化された32Bモデル（VRAM消費約20GB）であれば、ローカルのMac上で極めて高速に推論を回し続けることが可能です。

Ollamaでのモデル準備コマンド:
Mac版のOllamaアプリを起動しておけば自動的にバックグラウンドでAPIサーバー（localhost:11434）が立ち上がります。モデルのダウンロードは以下のコマンドで行います。

# 32BのQwen蒸留モデルをプル（ダウンロード）
ollama pull deepseek-r1:32b

3. n8n × Perplexity APIによる「低コスト事実抽出（JSONモード）」

ローカルLLMの弱点である「最新情報へのアクセス」を補完するため、Perplexity APIを活用します。
ここで極めて重要なアーキテクチャ上の制約は、Perplexityには「記事を書かせない」 ことです。後続のシステム（Dify）にパースエラーなく確実なデータを渡すため、JSONモードを利用して構造化データのみを抽出させます。

以下は、n8nの HTTP Request ノードでPerplexity API（sonarモデル）を叩き、JSONで構造化データを取得する際の実装エビデンスです。これをn8nにそのままインポートして使用可能です。

【n8n ノード設定JSON】

{
  "name": "Perplexity API (Fact Extraction)",
  "type": "n8n-nodes-base.httpRequest",
  "typeVersion": 4.1,
  "position": [250, 300],
  "parameters": {
    "method": "POST",
    "url": "[https://api.perplexity.ai/chat/completions](https://api.perplexity.ai/chat/completions)",
    "authentication": "predefinedCredentialType",
    "nodeCredentialType": "perplexityApi",
    "sendBody": true,
    "bodyParameters": {
      "parameters": [
        {
          "name": "model",
          "value": "sonar"
        },
        {
          "name": "messages",
          "value": "={{ [\n  {\n    \"role\": \"system\",\n    \"content\": \"あなたは優秀なリサーチャーです。指定されたトピックの最新情報を検索し、事実データのみをJSON形式で抽出してください。キーは 'topic', 'price', 'campaign', 'source_url' とします。装飾や挨拶は絶対に含めないでください。\"\n  },\n  {\n    \"role\": \"user\",\n    \"content\": \"最新のUQモバイルの料金プランとキャンペーン情報を抽出して\"\n  }\n] }}"
        },
        {
          "name": "max_tokens",
          "value": 500
        },
        {
          "name": "response_format",
          "value": { "type": "json_object" }
        }
      ]
    },
    "options": {}
  }
}

💡 ROIの補足:
sonarモデルの料金体系は「100万入力トークンあたり$1.00、100万出力トークンあたり$1.00」の従量課金です。1回のリクエスト（入力500/出力1,000トークン想定）で約0.2円、月間200記事分回しても約40円で最新のRAG環境が手に入ります。

4. Difyのローカル構築とn8nからのREST APIリクエスト

取得したJSONデータをベースに、重いテキスト生成（構成作成、10言語への翻訳、SEO最適化など）を行うワークフローをDifyで構築します。

DifyのDocker構成とOllamaへのルーティング
セキュリティとコストの観点から、DifyもDockerを用いてローカルで立ち上げます。Dockerコンテナ内のDifyから、ホストOS（Mac）上で動くOllamaにアクセスさせるためには、localhostではなく host.docker.internal を指定する必要があります。

【docker-compose.yml (抜粋)】

version: '3'
services:
  api:
    image: langgenius/dify-api:latest
    environment:
      # DifyコンテナからホストのOllamaへルーティングするための設定
      - OLLAMA_API_BASE_URL=[http://host.docker.internal:11434](http://host.docker.internal:11434)
    extra_hosts:
      - "host.docker.internal:host-gateway"
    ports:
      - "5001:5001"
    depends_on:
      - redis
      - db
      
  worker:
    image: langgenius/dify-api:latest
    environment:
      - OLLAMA_API_BASE_URL=[http://host.docker.internal:11434](http://host.docker.internal:11434)
    extra_hosts:
      - "host.docker.internal:host-gateway"

n8nからDifyへの受け渡し
Dify上で作成した翻訳・生成ワークフローに対して、n8nからREST API経由でPerplexityのデータを流し込みます。n8nのHTTPノードから以下のように、必ず認証ヘッダー（APIキー）を含めてPOSTリクエストを実行します。

エンドポイント: http://localhost:5001/v1/workflows/run

【Header】

{
  "Authorization": "Bearer YOUR_DIFY_API_KEY",
  "Content-Type": "application/json"
}

【Body (JSON)】

{
  "inputs": {
    "fact_data": "={{ $json[\"message\"][\"content\"] }}"
  },
  "response_mode": "blocking",
  "user": "n8n_automated_system"
}

これにより、最新情報の取得から10言語への翻訳までが完全に自動化されたパイプラインとして結合されます。

5. まとめとROIの考察

「情報はAPIで安く買い、思考とレイバー（労働）はローカルの広帯域メモリにオフロードする」。
これが、APIのランニングコストに押し潰されずに多言語展開や大量のコンテンツ生成をスケールさせる、2026年現在のエンタープライズ向けベストプラクティスです。

M4 Max（36GB〜）搭載のMacBook Proは初期投資として約40〜45万円程度かかりますが、月に数千万〜数億トークンを消費するようなAI自動化プロジェクトにおいては、数ヶ月でブレークイーブンを迎えます。その後はAPIのレートリミットに怯えることなく、完全な固定費（電気代のみ）で無限のコンピュートリソースを自律的に回し続けることが可能です。

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up