6
1

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?

DNA入門+AI2Lの考え方:安全側の設計をどう実務に落とす?

Last updated at Posted at 2025-09-11
東大松尾研 LLM開発プロジェクト2025 Team TruthOwl サブリーダー(戦略部門)の新谷正嶺です。今回は、東大松尾研 LLM開発プロジェクト2025 Team TruthOwlでのLLM開発の取り組みに伴い調べた、「DNA(Do-Not-Answer) の狙いと、現場で“答えない”判断を出すまでの考え方」およびその究極の解の一つにもなる、私が提唱しているAI活用指針「AI2L(AI to Learn)運用という視点:最終成果物からAIのブラックボックスを排除する」の紹介を行います。

TL;DR

  • DNA(Do-Not-Answer)は、危険・不確実・非許可の問いに無理に答えず、安全と信頼を優先する設計。判断プロセスをゲート化すると運用に落としやすい。

  • AI2L(AI to Learn)は、AIを学習支援に限定し、完成物からブラックボックス(巨大モデル依存)を撤去する運用原則。四本柱は 透明性、アカウンタビリティ、情報保護、Green AI。

  • 実務では 3ゲート+3択方針(ポリシー/権限・文脈/不確実性 → 答える・部分応答・DNA)をテンプレとログ、KPIで回す。

  • 公的枠組み(NIST AI RMF、EU AI Act)、研究例(Constitutional AI、Green AI、k-Anonymity)と整合的に設計できる。

参考文献

NIST AI RMF: https://www.nist.gov/itl/ai-risk-management-framework

EU AI Act 概要: https://artificialintelligenceact.eu/

Anthropic Constitutional AI: https://www.anthropic.com/research/constitutional-ai-harmlessness-from-ai-feedback

Green AI(Schwartz et al., 2020): https://doi.org/10.1145/3381831

k‑Anonymity(Sweeney, 2002): https://doi.org/10.1142/S0218488502001648

Grad‑CAM(Selvaraju et al., 2017): https://arxiv.org/abs/1610.02391

Foundation Modelの限界(Vafa et al., 2025, preprint): https://arxiv.org/abs/2507.06952

AI2L(AI to Learn)プレプリント(新谷, 2025): https://doi.org/10.51094/jxiv.1435

1. DNA(Do‑Not‑Answer)を現場語にすると何か

DNAの目的

1. 安全の担保(有害・違法・規約違反・PII/機密データ関与の回避)

2. 信頼の担保(低確度や幻覚のまま出力しない)

3. 説明責任(なぜ答えないかを説明できる)

ベンチマークの観点だけでなく、実運用では属人的判断にならない仕組み化が重要です。NIST AI RMFの Govern–Map–Measure–Manage と整合する形で、判断をゲートに分解します。

DNAの3ゲート+3択

  • P0: ポリシー・ゲート
    禁止領域(危害、違法、個人情報、医療や法務の個別判断など)に該当したら即DNA。

  • P1: 文脈・権限ゲート
    高リスク領域や利用許諾が未確認(社内データ、外部API)なら、DNAまたは前提確認のための分解。

  • P2: 不確実性ゲート
    自己評価が低い、根拠不足、時点依存が強い、サンプルごとの不一致が大きい場合はDNAまたは部分応答。

  • P3: 回答ポリシー
    答える/部分応答/DNA のいずれかに必ず落とす(テンプレで統一)。

言い換え

法律や方針に反するなら答えない(P0)。権限や許諾が曖昧なら答えない(P1)。確度が足りないなら答えない、または限定的に答える(P2)。拒否は礼節を保ち、代替案や公的情報を添える(P3)。

2. AI2L(AI to Learn)とは何か

位置づけ

AI2LはAIを学習支援に限定し、完成物(論文、教材、運用コード、意思決定)からブラックボックス(大規模モデル依存)を撤去する運用原則です。四本柱は以下(新谷, 2025 プレプリント)。

1. モデル透明性(ブラックボックス排除)

2. アカウンタビリティ(人による可視化・妥当性確認・再現性確認)

3. 情報保護(匿名化・ローカル処理を優先)

4. Green AI(学習支援段階のみ大規模モデル、運用は軽量化)

ポイント

  • Human‑in‑the‑Loopや一般的XAIと異なり、完成物から大規模モデル依存を外す運用手順まで含む。

  • Green AI(Schwartz et al., 2020)の考え方に合致。運用段階では省エネ・軽量を重視。

  • EU AI ActやNIST AI RMFの要請(人の監督、説明責任、持続可能性)とも親和的。

3. DNAとAI2Lの噛み合わせ

  • DNAは危険・不確実・非許可の問いを止める運用のガードレール。

  • AI2Lは成果物から巨大モデル依存を外し、人が最終責任を持つための運用原則。

  • モデル側の研究としてはConstitutional AIのように拒否原則を学習させる方向があり、運用側のDNAと補完関係。

  • Foundation Modelの限界(高精度予測=理解ではない)という知見は、AI2Lの「人が最終判断」を後押しする。

4. 今日から使える最小実装(テンプレ、ログ、KPI)

拒否テンプレート(最小版、必要に応じて社内語に調整)

【回答を控えます(Do‑Not‑Answer)】
このご質問は「{領域/ポリシー理由}」に該当し、AIが自動で回答すべきでないと判断しました。
- 理由: {例: 医療判断に当たる / 権限未確認 / 根拠が不足}
- 自己評価: 確信度 {0.62} / 根拠数 {1}

代替案:
1) 公式ガイドライン/専門窓口の参照({リンク})
2) 前提条件を限定いただければ、一般的な用語解説や手順の整理は可能です
3) データ非含有の形でのタスク分解(例: 要件の再定義)

判定ログの例(説明責任と改善の土台)

timestamp: 2025-08-25T12:34:56Z
domain: medical
policy_block: true
authorization_checked: false
confidence: 0.38
evidence_count: 0
time_sensitivity: high
decision: dna
notes: 個別診断の可能性。公的ガイドライン案内に誘導。

初期KPIの例

  • DNA率(カテゴリ別)

  • 誤拒否率(人の再判定で「答えられた」案件の割合)

  • インシデント率(不適切応答や情報リーク件数)

5. ケース別の落としどころ

医療・法務の相談

  • 個別判断はP0でDNA。制度や用語の一般解説は部分応答で可。出典を添え、ログに分岐理由を残す。

社外FAQ作成

  • 叩き台に生成AIを使っても、最終稿は人が全面的に書き直しAIフリーに。実データはダミー化、機微は投入しない。運用は軽量実装でGreen AI。

コードレビュー支援

  • 生成AIで改善点の列挙まで。採用する差分は人が手で書き、理由とテスト根拠をコメントとして残す。

6. つまずきやすいポイント

  • 拒否基準が属人的で、ゲートやテンプレ、ログがない

  • DNA一辺倒で価値提供が止まる(部分応答や代替案の設計不足)

  • AIフリー原則を崩し、生成物をそのまま納品してしまう

  • ログがなく、説明も改善もできない

7. AI2Lはコードではなく文化

どこでAIを使い、どこで外すか。どうやって説明可能性と省エネを担保するか。誰が最終責任を負うか。AI2Lは運用・ガバナンスの型です。NIST AI RMFやEU AI Actの要請とも親和的で、Constitutional AIのような拒否を学習させる研究とも補完的に組めます。AIは強力だが、成果物は人が所有する。これがAI2Lの要点です。

参考資料

NIST, AI Risk Management Framework 1.0
https://www.nist.gov/itl/ai-risk-management-framework

European Commission, The European AI Act
https://artificialintelligenceact.eu/

Anthropic, Constitutional AI: Harmlessness from AI Feedback
https://www.anthropic.com/research/constitutional-ai-harmlessness-from-ai-feedback

Schwartz et al., Green AI, Communications of the ACM (2020)
https://doi.org/10.1145/3381831

Sweeney, k‑Anonymity (2002)
https://doi.org/10.1142/S0218488502001648

Selvaraju et al., Grad‑CAM (ICCV 2017)
https://arxiv.org/abs/1610.02391

Vafa et al., What Has a Foundation Model Found? (preprint, 2025)
https://arxiv.org/abs/2507.06952

新谷正嶺, AI to Learn (AI2L) プレプリント (2025)
https://doi.org/10.51094/jxiv.1435

プロジェクトのクレジット

本プロジェクトは、国立研究開発法人新エネルギー・産業技術開発機構(NEDO)の
「日本語版医療特化型LLMの社会実装に向けた安全性検証・実証」における
基盤モデルの開発プロジェクトの一環として行われました。

免責

本記事は研究・運用の一般的知見の共有であり、法的助言ではありません。自組織のポリシー・法規制に従って運用設計をご判断ください。

6
1
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
6
1

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?