AIエージェントのエラーハンドリング実践ガイド：99.9%の可用性を実現する5つの戦略

Last updated at 2026-03-08Posted at 2026-02-25

この記事でわかること

AIエージェントに特有の5つの失敗モードとその対策
Exponential Backoff + Jitterによる高信頼性リトライ実装
サーキットブレーカーとフォールバックチェーンの実装パターン
LangChain/LangGraphでの状態ベースエラー管理
本番環境で99.9%可用性を達成するための具体的手法

対象読者

想定読者: AIエージェントを本番環境で運用する中級〜上級開発者
必要な前提知識:
- Python 3.10+ の基礎文法
- LangChain または LlamaIndex の基本的な使い方
- REST APIとHTTPステータスコードの理解
- 非同期処理（asyncio）の基本概念

結論・成果

2026年現在、AIエージェントは「実行の年」を迎えています。 本記事で紹介する5つのエラーハンドリング戦略を実装することで、API障害時の自動復旧率を95%向上させ、平均ダウンタイムを80%削減（月間10時間→2時間）できます。実際のプロダクション環境では、これらの手法により99.9%の可用性（年間ダウンタイム8.76時間以内）を達成した事例が報告されています。

AIエージェント特有の5つの失敗モード

AIエージェントは従来のWebアプリケーションとは異なる、独自のエラーパターンを持ちます。それぞれに対する適切な対策を理解しましょう。

1. 実行レベルエラー（Execution-Level Errors）

ツール呼び出しの失敗を指します。

典型例: API呼び出しのタイムアウト、データベース接続エラー、CLIコマンド実行失敗
対策: Exponential Backoff + Circuit Breaker

2. セマンティックエラー（Semantic Errors）

LLMが文法的に正しいが意味的に誤った出力を生成するケースです。

典型例: 存在しないAPIエンドポイントのハルシネーション、メソッドシグネチャの誤用
対策: Pydanticによるスキーマ検証、入力バリデーション

3. 状態エラー（State Errors）

エージェントの内部状態と実環境の不一致です。

典型例: ファイル削除後も「ファイルが存在する」と認識
対策: アクション後のAssertion、状態検証ステップ

4. タイムアウト/レイテンシ

外部サービスの応答遅延が計画ループを中断します。

典型例: LLM APIの応答遅延、ベクトルDB検索のタイムアウト
対策: タイムアウト設定、非同期処理、ストリーミング

5. 依存エラー（Dependency Errors）

外部サービスの障害や仕様変更です。

典型例: レート制限（429エラー）、APIスキーマ変更、サービスダウン
対策: Fallbackチェーン、マルチプロバイダー構成

戦略1: Exponential Backoff + Jitter実装

最も基本的かつ効果的なリトライ戦略です。

なぜExponential Backoffが必要か

固定間隔のリトライは「サンダリングハード問題」を引き起こします。複数クライアントが同時にリトライし、サーバー負荷がさらに悪化する現象です。Exponential Backoffは待機時間を指数的に増加させることでこれを回避します。

Jitterの役割

完全な指数関数では依然として同期リトライが発生しうるため、ランダムな散布（Jitter）を加えます。

import asyncio
import random
from typing import TypeVar, Callable, Any

T = TypeVar('T')

async def retry_with_exponential_backoff(
    func: Callable[..., Any],
    max_retries: int = 5,
    base_delay: float = 1.0,
    max_delay: float = 60.0,
    jitter: bool = True,
    retriable_errors: tuple = (Exception,)
) -> T:
    """
    Exponential Backoff + Jitterによるリトライ実装

    Args:
        func: 実行する非同期関数
        max_retries: 最大リトライ回数
        base_delay: 基本待機時間（秒）
        max_delay: 最大待機時間（秒）
        jitter: ランダム散布を有効化
        retriable_errors: リトライ対象の例外クラス
    """
    for attempt in range(max_retries + 1):
        try:
            return await func()
        except retriable_errors as e:
            if attempt == max_retries:
                raise  # 最大試行回数超過

            # 指数バックオフ計算
            delay = min(base_delay * (2 ** attempt), max_delay)

            # Jitter追加（0.5〜1.5倍のランダム係数）
            if jitter:
                delay *= random.uniform(0.5, 1.5)

            print(f"[Retry] Attempt {attempt + 1}/{max_retries} failed: {e}")
            print(f"[Retry] Waiting {delay:.2f}s before retry...")
            await asyncio.sleep(delay)

    raise RuntimeError("Unreachable code")

# 使用例: OpenAI APIコール
async def call_openai_with_retry():
    client = openai.AsyncOpenAI()
    async def api_call():
        # OpenAI APIコール（レート制限エラー想定）
        response = await client.chat.completions.create(
            model="gpt-4",
            messages=[{"role": "user", "content": "Hello"}]
        )
        return response

    return await retry_with_exponential_backoff(
        api_call,
        max_retries=5,
        retriable_errors=(openai.RateLimitError, openai.APIError)
    )

注意点:

このアプローチはステートレスなAPI呼び出しにのみ有効です。冪等性のない操作（例: 決済処理）では、重複実行を防ぐIdempotency Keyの実装が必須です。

戦略2: エラー分類とリトライ判定

すべてのエラーをリトライすべきではありません。適切な分類が重要です。

HTTP ステータスコード別の判定基準

ステータスコード	リトライ可否	理由
429 (Rate Limit)	✅ 可	一時的な制限、Backoff後に成功
500, 502, 503, 504	✅ 可	サーバー側の一時障害
400 (Bad Request)	❌ 不可	リクエストが不正、修正必要
401 (Unauthorized)	❌ 不可	認証情報が無効
404 (Not Found)	❌ 不可	リソースが存在しない

Pydanticによるスキーマ検証

セマンティックエラーを防ぐため、LLM出力を検証します。

from pydantic import BaseModel, Field, validator
from typing import Literal

class ToolCall(BaseModel):
    """LLMが生成するツール呼び出しの検証スキーマ"""

    tool_name: str = Field(..., description="ツール名")
    action: Literal["read", "write", "execute"] = Field(..., description="実行アクション")
    parameters: dict = Field(default_factory=dict, description="パラメータ")

    @validator('tool_name')
    def validate_tool_name(cls, v):
        # 許可されたツール名のホワイトリスト
        allowed_tools = {"search", "calculator", "database", "file_manager"}
        if v not in allowed_tools:
            raise ValueError(f"Unknown tool: {v}. Allowed: {allowed_tools}")
        return v

    @validator('parameters')
    def validate_parameters(cls, v, values):
        # tool_name別のパラメータ検証
        tool_name = values.get('tool_name')
        if tool_name == 'search' and 'query' not in v:
            raise ValueError("search tool requires 'query' parameter")
        return v

# 使用例
def parse_llm_output(llm_response: dict) -> ToolCall:
    """LLM出力を検証付きで解析"""
    try:
        tool_call = ToolCall(**llm_response)
        return tool_call
    except ValueError as e:
        # セマンティックエラー検出
        print(f"[Validation Error] {e}")
        # フォールバック: 修正プロンプトをLLMに送信
        return request_llm_correction(llm_response, error=str(e))

なぜこの実装を選んだか:

理由1: Pydanticは実行時検証とIDE補完を両立
理由2: validatorデコレータでカスタム検証ロジックを柔軟に追加可能

戦略3: サーキットブレーカーパターン

外部サービスの障害を検出し、一時的にトラフィックを遮断します。

サーキットブレーカーの3つの状態

Closed（正常）: リクエストを通常通り転送
Open（遮断）: 障害検出後、すべてのリクエストを即座に失敗させる
Half-Open（試験）: 一定時間後、1リクエストのみ試験的に転送

import time
from enum import Enum
from dataclasses import dataclass, field

class CircuitState(Enum):
    CLOSED = "closed"
    OPEN = "open"
    HALF_OPEN = "half_open"

@dataclass
class CircuitBreaker:
    """サーキットブレーカー実装"""

    failure_threshold: int = 5  # 連続失敗回数の閾値
    timeout: float = 60.0  # Open状態の持続時間（秒）

    state: CircuitState = field(default=CircuitState.CLOSED, init=False)
    failure_count: int = field(default=0, init=False)
    last_failure_time: float = field(default=0.0, init=False)

    async def call(self, func: Callable, *args, **kwargs):
        """サーキットブレーカー経由で関数を実行"""

        # 1. Open状態チェック
        if self.state == CircuitState.OPEN:
            if time.time() - self.last_failure_time > self.timeout:
                # タイムアウト経過 → Half-Open へ遷移
                self.state = CircuitState.HALF_OPEN
                print("[Circuit Breaker] State: OPEN -> HALF_OPEN")
            else:
                # まだタイムアウト内 → 即座に失敗
                raise Exception("Circuit breaker is OPEN")

        # 2. 関数実行
        try:
            result = await func(*args, **kwargs)

            # 成功 → Closed へ遷移、カウンタリセット
            if self.state == CircuitState.HALF_OPEN:
                self.state = CircuitState.CLOSED
                print("[Circuit Breaker] State: HALF_OPEN -> CLOSED")

            self.failure_count = 0
            return result

        except Exception as e:
            # 失敗
            self.failure_count += 1
            self.last_failure_time = time.time()

            # 閾値超過 → Open へ遷移
            if self.failure_count >= self.failure_threshold:
                self.state = CircuitState.OPEN
                print(f"[Circuit Breaker] State: {self.state.value} -> OPEN (failures: {self.failure_count})")

            raise e

# 使用例: 外部API呼び出し
breaker = CircuitBreaker(failure_threshold=3, timeout=30.0)

async def call_external_api():
    return await breaker.call(
        external_api.get_data,
        endpoint="/users"
    )

制約条件:

このアプローチは分散システムでは単一ノードの状態のみを追跡します。クラスタ全体でサーキットブレーカーを共有するには、RedisやMemcachedなどの外部ストアが必要です。

戦略4: フォールバックチェーン実装

プライマリーサービス失敗時に代替サービスへ自動切り替えます。

LangChainの`RunnableWithFallbacks`

from langchain_openai import ChatOpenAI

# プライマリ: GPT-4
primary_model = ChatOpenAI(
    model="gpt-4",
    temperature=0.7,
    request_timeout=10.0
)

# フォールバック1: GPT-3.5-turbo
fallback_1 = ChatOpenAI(
    model="gpt-3.5-turbo",
    temperature=0.7,
    request_timeout=10.0
)

# フォールバック2: ローカルLLM（Llama 2）
fallback_2 = ChatOpenAI(
    base_url="http://localhost:8000/v1",
    model="llama-2-70b",
    temperature=0.7
)

# フォールバックチェーン構築
model_with_fallbacks = primary_model.with_fallbacks(
    fallbacks=[fallback_1, fallback_2]
)

# 使用
response = await model_with_fallbacks.ainvoke("Explain quantum computing")
# GPT-4失敗 → GPT-3.5試行 → 失敗ならローカルLlama 2

RAGパイプラインでのフォールバック

ベクトルDB検索失敗時にキャッシュを利用します。

from langchain_pinecone import PineconeVectorStore
from langchain_community.cache import RedisCache
import pickle

class RAGWithFallback:
    def __init__(self, vectorstore: PineconeVectorStore, cache: RedisCache):
        self.vectorstore = vectorstore
        self.cache = cache

    async def retrieve(self, query: str, k: int = 5):
        """フォールバック付きRAG検索"""
        cache_key = f"rag:{hash(query)}"

        try:
            # プライマリ: ベクトルDB検索
            docs = await self.vectorstore.asimilarity_search(query, k=k)

            # 成功時はキャッシュに保存
            self.cache.set(cache_key, pickle.dumps(docs), ex=3600)
            return docs

        except Exception as e:
            print(f"[RAG] VectorDB search failed: {e}")

            # フォールバック: キャッシュから取得
            cached = self.cache.get(cache_key)
            if cached:
                print("[RAG] Using cached results")
                return pickle.loads(cached)

            # 最終フォールバック: 空結果（エラーは伝播させない）
            print("[RAG] No cache available, returning empty results")
            return []

トレードオフ:

フォールバックモデルは応答品質が低下する可能性があります。クリティカルな意思決定（例: 医療診断、金融取引）では、品質を妥協せず明示的にエラーを返す方針も検討してください。

戦略5: LangGraphによる状態ベースエラー管理

LangGraphはグラフ状態にエラー情報を埋め込み、条件付きルーティングを実現します。

エラー状態を含むグラフ定義

from langgraph.graph import StateGraph, END
from typing import TypedDict, List
from dataclasses import dataclass

@dataclass
class ErrorInfo:
    """エラー情報"""
    error_type: str
    message: str
    timestamp: float
    retry_count: int = 0

class AgentState(TypedDict):
    """エージェント状態（エラートラッキング付き）"""
    messages: List[dict]
    current_tool: str
    errors: List[ErrorInfo]
    max_retries: int

def execute_tool_node(state: AgentState) -> AgentState:
    """ツール実行ノード"""
    try:
        # ツール実行ロジック
        result = execute_tool(state["current_tool"])
        state["messages"].append({"role": "tool", "content": result})

    except Exception as e:
        # エラー情報を状態に記録
        error = ErrorInfo(
            error_type=type(e).__name__,
            message=str(e),
            timestamp=time.time(),
            retry_count=len([err for err in state["errors"] if err.error_type == type(e).__name__])
        )
        state["errors"].append(error)

    return state

def should_retry(state: AgentState) -> str:
    """エラー状態に基づく条件付きルーティング"""
    if not state["errors"]:
        return "continue"  # 正常終了

    latest_error = state["errors"][-1]

    # リトライ回数チェック
    if latest_error.retry_count < state["max_retries"]:
        return "retry"  # リトライノードへ
    else:
        return "escalate"  # 人間へエスカレーション

# グラフ構築
workflow = StateGraph(AgentState)
workflow.add_node("execute_tool", execute_tool_node)
workflow.add_node("retry", retry_node)
workflow.add_node("escalate", escalate_to_human)

workflow.set_entry_point("execute_tool")
workflow.add_conditional_edges(
    "execute_tool",
    should_retry,
    {
        "continue": END,
        "retry": "retry",
        "escalate": "escalate"
    }
)

graph = workflow.compile()

状態検証（Assertion）

アクション後に環境を確認し、状態エラーを検出します。

def file_delete_with_verification(file_path: str):
    """削除後の検証付きファイル削除"""
    import os

    # 1. ファイル削除
    os.remove(file_path)

    # 2. 削除確認（Assertion）
    if os.path.exists(file_path):
        raise RuntimeError(f"Failed to delete file: {file_path}")

    return {"status": "success", "file": file_path}