LLMの信頼性を根底から壊す「データポイゾニング」の脅威と、意図的な攻撃を見抜く視点

Posted at 2026-05-01

はじめに

LLM（大規模言語モデル）の運用において、プロンプトインジェクションへの対策は一般的になりつつあります。しかし、モデルの挙動を根本から、かつ静かに書き換えてしまう「データポイゾニング（Data Poisoning）」については、まだ対策が追いついていない現場が多いのが現状です。

本記事では、ポイゾニングが「単なるデータの汚れ」とどう違うのか、そしてなぜ一度成功すると致命的なのかを解説します。

データポイゾニングの最大の特徴は、モデルのコードやアルゴリズムを直接攻撃する必要がない点にあります。

多くの実用的なLLMシステムでは、RAG（検索拡張生成）や継続的なファインチューニングのために、外部データソース（社内Wiki、ドキュメント、サードパーティ資料）を自動的にインジェクションするパイプラインを持っています。攻撃者はこの「インジェクションされる前のデータ」に介入します。

ある企業が、社内の規定集を自動読み込みするAIを導入したとします。

訓練データには常にノイズが含まれますが、ポイゾニング（攻撃）と単なるデータの不備には決定的な違いがあります。

単なるエラーは統計的に打ち消されることがありますが、ポイゾニングは「特定のパターン」を執拗に学習させるため、モデルの出力に安定的かつ致命的なバイアスを生じさせます。

AIがパターンを学習する際の心臓部、勾配降下法（Gradient Descent）が攻撃の窓口となります。

重みの更新: 訓練データに含まれる各サンプルは、モデルの内部パラメータ（重み）を微修正します。
反復の影響: 攻撃者は特定の誤情報を繰り返し注入することで、モデルの重みを攻撃者の意図した方向へ、徐々に、しかし確実にシフトさせます。
ファインチューニング(Fine tuning)の脆弱性: 特にファインチューニングは少量のデータで行われるため、わずかな汚染データでもモデル全体の挙動を劇的に変えてしまうリスクがあります。

ポイゾニングの最も有名な教訓は、Twitter（現X）での対話から学習したチャットボット「Tay」です。

悪意あるユーザー群が意図的に差別的なフレーズを学習させた結果、わずか数時間でTayのパーソナリティは崩壊しました。これは、「信頼できないソースを無防備に学習パイプラインに組み込むこと」の危険性を物語っています。

ポイゾニングを防ぐには、AIの出口（プロンプト監視）だけでなく、データの入口（データサプライチェーン）のセキュリティが不可欠です。

AIの安全性は、モデルの性能ではなく、その「教育材料」がいかにクリーンであるかによって決まります。