東大松尾研 LLM開発プロジェクト2025 Team TruthOwl サブリーダー(戦略部門)の新谷正嶺です。今回は、東大松尾研 LLM開発プロジェクト2025 Team TruthOwlでのLLM開発の取り組みに伴い調べた、「DNA(Do-Not-Answer) の狙いと、現場で“答えない”判断を出すまでの考え方」およびその究極の解の一つにもなる、私が提唱しているAI活用指針「AI2L(AI to Learn)運用という視点:最終成果物からAIのブラックボックスを排除する」の紹介を行います。
TL;DR
-
DNA(Do-Not-Answer)は、危険・不確実・非許可の問いに無理に答えず、安全と信頼を優先する設計。判断プロセスをゲート化すると運用に落としやすい。
-
AI2L(AI to Learn)は、AIを学習支援に限定し、完成物からブラックボックス(巨大モデル依存)を撤去する運用原則。四本柱は 透明性、アカウンタビリティ、情報保護、Green AI。
-
実務では 3ゲート+3択方針(ポリシー/権限・文脈/不確実性 → 答える・部分応答・DNA)をテンプレとログ、KPIで回す。
-
公的枠組み(NIST AI RMF、EU AI Act)、研究例(Constitutional AI、Green AI、k-Anonymity)と整合的に設計できる。
参考文献
NIST AI RMF: https://www.nist.gov/itl/ai-risk-management-framework
EU AI Act 概要: https://artificialintelligenceact.eu/
Anthropic Constitutional AI: https://www.anthropic.com/research/constitutional-ai-harmlessness-from-ai-feedback
Green AI(Schwartz et al., 2020): https://doi.org/10.1145/3381831
k‑Anonymity(Sweeney, 2002): https://doi.org/10.1142/S0218488502001648
Grad‑CAM(Selvaraju et al., 2017): https://arxiv.org/abs/1610.02391
Foundation Modelの限界(Vafa et al., 2025, preprint): https://arxiv.org/abs/2507.06952
AI2L(AI to Learn)プレプリント(新谷, 2025): https://doi.org/10.51094/jxiv.1435
1. DNA(Do‑Not‑Answer)を現場語にすると何か
DNAの目的
1. 安全の担保(有害・違法・規約違反・PII/機密データ関与の回避)
2. 信頼の担保(低確度や幻覚のまま出力しない)
3. 説明責任(なぜ答えないかを説明できる)
ベンチマークの観点だけでなく、実運用では属人的判断にならない仕組み化が重要です。NIST AI RMFの Govern–Map–Measure–Manage と整合する形で、判断をゲートに分解します。
DNAの3ゲート+3択
-
P0: ポリシー・ゲート
禁止領域(危害、違法、個人情報、医療や法務の個別判断など)に該当したら即DNA。 -
P1: 文脈・権限ゲート
高リスク領域や利用許諾が未確認(社内データ、外部API)なら、DNAまたは前提確認のための分解。 -
P2: 不確実性ゲート
自己評価が低い、根拠不足、時点依存が強い、サンプルごとの不一致が大きい場合はDNAまたは部分応答。 -
P3: 回答ポリシー
答える/部分応答/DNA のいずれかに必ず落とす(テンプレで統一)。
言い換え
法律や方針に反するなら答えない(P0)。権限や許諾が曖昧なら答えない(P1)。確度が足りないなら答えない、または限定的に答える(P2)。拒否は礼節を保ち、代替案や公的情報を添える(P3)。
2. AI2L(AI to Learn)とは何か
位置づけ
AI2LはAIを学習支援に限定し、完成物(論文、教材、運用コード、意思決定)からブラックボックス(大規模モデル依存)を撤去する運用原則です。四本柱は以下(新谷, 2025 プレプリント)。
1. モデル透明性(ブラックボックス排除)
2. アカウンタビリティ(人による可視化・妥当性確認・再現性確認)
3. 情報保護(匿名化・ローカル処理を優先)
4. Green AI(学習支援段階のみ大規模モデル、運用は軽量化)
ポイント
-
Human‑in‑the‑Loopや一般的XAIと異なり、完成物から大規模モデル依存を外す運用手順まで含む。
-
Green AI(Schwartz et al., 2020)の考え方に合致。運用段階では省エネ・軽量を重視。
-
EU AI ActやNIST AI RMFの要請(人の監督、説明責任、持続可能性)とも親和的。
3. DNAとAI2Lの噛み合わせ
-
DNAは危険・不確実・非許可の問いを止める運用のガードレール。
-
AI2Lは成果物から巨大モデル依存を外し、人が最終責任を持つための運用原則。
-
モデル側の研究としてはConstitutional AIのように拒否原則を学習させる方向があり、運用側のDNAと補完関係。
-
Foundation Modelの限界(高精度予測=理解ではない)という知見は、AI2Lの「人が最終判断」を後押しする。
4. 今日から使える最小実装(テンプレ、ログ、KPI)
拒否テンプレート(最小版、必要に応じて社内語に調整)
【回答を控えます(Do‑Not‑Answer)】
このご質問は「{領域/ポリシー理由}」に該当し、AIが自動で回答すべきでないと判断しました。
- 理由: {例: 医療判断に当たる / 権限未確認 / 根拠が不足}
- 自己評価: 確信度 {0.62} / 根拠数 {1}
代替案:
1) 公式ガイドライン/専門窓口の参照({リンク})
2) 前提条件を限定いただければ、一般的な用語解説や手順の整理は可能です
3) データ非含有の形でのタスク分解(例: 要件の再定義)
判定ログの例(説明責任と改善の土台)
timestamp: 2025-08-25T12:34:56Z
domain: medical
policy_block: true
authorization_checked: false
confidence: 0.38
evidence_count: 0
time_sensitivity: high
decision: dna
notes: 個別診断の可能性。公的ガイドライン案内に誘導。
初期KPIの例
-
DNA率(カテゴリ別)
-
誤拒否率(人の再判定で「答えられた」案件の割合)
-
インシデント率(不適切応答や情報リーク件数)
5. ケース別の落としどころ
医療・法務の相談
- 個別判断はP0でDNA。制度や用語の一般解説は部分応答で可。出典を添え、ログに分岐理由を残す。
社外FAQ作成
- 叩き台に生成AIを使っても、最終稿は人が全面的に書き直しAIフリーに。実データはダミー化、機微は投入しない。運用は軽量実装でGreen AI。
コードレビュー支援
- 生成AIで改善点の列挙まで。採用する差分は人が手で書き、理由とテスト根拠をコメントとして残す。
6. つまずきやすいポイント
-
拒否基準が属人的で、ゲートやテンプレ、ログがない
-
DNA一辺倒で価値提供が止まる(部分応答や代替案の設計不足)
-
AIフリー原則を崩し、生成物をそのまま納品してしまう
-
ログがなく、説明も改善もできない
7. AI2Lはコードではなく文化
どこでAIを使い、どこで外すか。どうやって説明可能性と省エネを担保するか。誰が最終責任を負うか。AI2Lは運用・ガバナンスの型です。NIST AI RMFやEU AI Actの要請とも親和的で、Constitutional AIのような拒否を学習させる研究とも補完的に組めます。AIは強力だが、成果物は人が所有する。これがAI2Lの要点です。
- AI2L プレプリント(新谷, 2025)
https://doi.org/10.51094/jxiv.1435
参考資料
NIST, AI Risk Management Framework 1.0
https://www.nist.gov/itl/ai-risk-management-framework
European Commission, The European AI Act
https://artificialintelligenceact.eu/
Anthropic, Constitutional AI: Harmlessness from AI Feedback
https://www.anthropic.com/research/constitutional-ai-harmlessness-from-ai-feedback
Schwartz et al., Green AI, Communications of the ACM (2020)
https://doi.org/10.1145/3381831
Sweeney, k‑Anonymity (2002)
https://doi.org/10.1142/S0218488502001648
Selvaraju et al., Grad‑CAM (ICCV 2017)
https://arxiv.org/abs/1610.02391
Vafa et al., What Has a Foundation Model Found? (preprint, 2025)
https://arxiv.org/abs/2507.06952
新谷正嶺, AI to Learn (AI2L) プレプリント (2025)
https://doi.org/10.51094/jxiv.1435
プロジェクトのクレジット
本プロジェクトは、国立研究開発法人新エネルギー・産業技術開発機構(NEDO)の
「日本語版医療特化型LLMの社会実装に向けた安全性検証・実証」における
基盤モデルの開発プロジェクトの一環として行われました。
免責
本記事は研究・運用の一般的知見の共有であり、法的助言ではありません。自組織のポリシー・法規制に従って運用設計をご判断ください。