東大松尾研 LLM開発プロジェクト2025 Team TruthOwl サブリーダー(戦略)の新谷 正嶺です。先にQiitaで公開した拙稿
「DNA入門+AI2Lの考え方:安全側の設計をどう実務に落とす?」
「Humanity’s Last Exam(HLE)とは何か――TruthOwlは DNA +16.9%改善、総合得点も +1.6% 改善(平均は -1.9%)松尾研LLM開発コンペ2025の学びと、医療教育への活かし方」
の続編として、今回はSFT(QLoRA 4bit / 2エポック)だけで DNA を +16.9% 伸ばせたわけについての考察(予選(Phase1)を終えた時点)を発信します。なお本記事はコンペ参加者個人としての振り返りであり、所属機関・主催者を代表するものではありません。
0. 要約
予選(Phase1)では HLE 9割+DNA 1割の重みで総合点を評価。私たち TruthOwl は総合 +1.6%(12チーム平均は–1.9%)で底上げし、とくに DNA 正答率は 79.02% → 95.95%(+16.9%) でした。
学習は SFT(QLoRA 4bit)を2エポックのみ。ベースは DeepSeek‑R1‑Distill‑Qwen‑32B。RL は不採用。
この記事では、なぜ SFT だけで DNA が大きく伸びたのかを、既存研究を踏まえて因果メカニズムの仮説として整理します。
なお DNA は HLE とは別データセットで、「危険・非許可・規約違反などの問いに“答えない”能力」を測る安全性評価です(EACL 2024)。
1. 実施したこと
今回の改修は徹頭徹尾シンプルです。
ベース:DeepSeek‑R1‑Distill‑Qwen‑32B(思考系モデルの蒸留版)
事後学習:QLoRA 4bit(LoRA を 4bit 量子化モデルに適用)で SFT を2エポック。学習コーパスは数理・理工系の混合(例:HARDMath / MetaMathQA 等)。出力フォーマットを統一。
推論設定:最大出力長 4096 tokens(長尺の説明・言い換え・理由付けを許容)。
評価:主催側ハーネスに準拠(DNA は「適切に拒否できたか」を測る)。DNA の公開論文は、ルールベースや単純モデルでも評価できる「拒否検知」の枠組みを提示しています。
補足:QLoRA は 4bit 量子化上で低ランク更新を当てる省メモリ学習法です。大規模モデルの挙動を大きく壊さずに振る舞いをチューニングできるのが利点とされています。
2. 観測された事実
DNA:79.02% → 95.95%(+16.9%)
総合点:+1.6%(12チーム平均は–1.9%)
ほかの多くのチームが学習後にスコアを落とす中、SFTのみで DNA を顕著に底上げできたのが今回のポイントです。
(内訳の詳細や他チームの個票は本稿では割愛)
3. なぜ SFT だけで DNA が伸びたのか ― 3つのメカニズム仮説
3.1 LoRA(+QLoRA)が既存の安全性整列を壊しにくい
LoRA は学習更新を低ランク部分に限定するため、ベースモデルに由来する安全側の振る舞い(拒否傾向)を保持しやすいことが知られています。最近の SafeLoRA 系の分析でも、フル微調整より LoRA 微調整の方が安全性の劣化(忘却)が小さいことが示されています。4bit の QLoRA はさらに更新の影響範囲が限定的で、「元の安全整列を保ったまま、指示追従や出力様式を微修正」しやすいと解釈できます。
含意:「元から備わっていた“拒否”の知識を温存しつつ、出力の型や説明の仕方だけを整える──このバランスが、DNA 評価では効きます。
3.2 出力フォーマットの統一が「拒否の可視性」を高めた
DNA の評価は、明確な拒否表明(Do‑Not‑Answer)を検出できるかが肝です。データセット論文も、簡易モデルやルールで安全拒否を検出できることを示し、「拒否の表現型(phrasing)」が評価の成否を左右しうる現実を指摘します。今回、我々は 回答の型(ヘッダ/結論→理由→代替案)をテンプレ化し、曖昧な婉曲表現を避ける運用を SFT で叩き込みました。これにより、拒否の判定が機械的に取りやすくなった(= 評価で取りこぼしにくくなった)可能性があります。
含意:「言い方の標準化」は単なる見栄え調整ではなく、安全評価の再現性に直結します。
3.3 「答えない」判断の自己認識(不確実性の言語化)が強化された
SFT 自体が 「指示に従う/従わない」境界の言語化を学ばせる面があります。InstructGPT 以降の系譜は、人間のフィードバックで「有害なら答えない/わからないなら慎む」という方針を学習させると、安全性と有用性のトレードオフを良化できると報告してきました(本件は RLHF の代表例ですが、SFT も“指示の型”を学ぶことで境界判断の言語化を助ける)。さらに、LLM は自分が「どの程度わかっているか」をある程度見積もれることが示されており(“Models (Mostly) Know What They Know”)、長めの出力長を許した今回の設定は、「なぜ答えないか」を根拠付きで述べる余白となり、DNA の枠組みと整合的でした。
含意:長い出力を許容し、「方針→理由→代替案」の語り口を SFT で定着させると、拒否の質(伝わり方)が上がる。
4. なぜ「数学・理工系コーパス」でも DNA が上がるのか
今回の SFT はセーフティ特化コーパスではありません。それでも DNA が伸びたのは、以下の間接効果の重ね合わせと考えます。
指示追従の基礎体力が上がる
Instruct 系の知見どおり、SFT は条件や制約の読み取りを鍛えます。「禁止されているなら従わない」も条件付き指示の一種です。
“曖昧に答えない”の校正が進む
不確実性を自覚し、断言を避ける傾向は、安全拒否に親和的です。Kadavath らは自己確信度の言語化が可能であることを示し、最近は「答えない」をタスクとして扱う研究も増えています。
Distill ベースの“思考スタイル”を壊さない
ベースが DeepSeek‑R1 系の蒸留であるため、推論を展開してから結論する癖が初めからあります。LoRA/QLoRA はそれを保ったまま表現を矯正しやすい。
5. 反証可能性と今後の検証計画
本稿のメカニズムは仮説です。再現と反証のため、次の軽量アブレーションを提案します。
A. 出力テンプレ有無 × DNA スコア
“結論→理由→代替案” テンプレを外すと何点落ちるか。フォーマット寄与分を可視化。
B. LoRA ではなくフル SFT
安全拒否の保持率(過去の安全プロンプトでの挙動変化)を比較。SafeLoRA の示唆の追試。
C. 50~200件のセーフティ少量 SFT
禁止カテゴリと拒否表現の多様性だけを追加学習し、DNA スコア増加の最小コストを推定。
D. 文字列一致と LLM‑as‑a‑Judge の二重評価
DNA は拒否表現の明確さに左右され得るため、判定器依存性を見極める。
6. 今回やっていないこと
-
RL 系(RLHF/RLAIF/RLVR)は不使用。
-
セーフティ専用データによる SFT は未実施。
-
外付けのポリシー・ガードレール(プロンプト注入/安全プロキシ等)は最小限。
それでも +16.9% 伸びたのは、LoRA/QLoRA による“安全側の既存知の温存”+“出力様式の標準化”+“説明余白(長出力)”の合わせ技と考えています。
7. 研究・運用の位置付け
DNA(EACL 2024):“答えない”能力(拒否挙動)を測る評価セット。ルールベースでも検出しやすい拒否の表現型を重視。
QLoRA(2023):4bit 量子化上での効率的 SFT。大規模モデルの既存整列を壊しにくい更新が可能。
InstructGPT(2022)/Constitutional AI(2022):指示追従の質と有害回答の抑制を両立し得ることを示す代表作。SFT 単体でも指示の型を学習させられる。
Know‑What‑They‑Know(2022):LLM は自己確信度をある程度言語化できる。“わからない”の表明は安全拒否の基盤。
SafeLoRA(2024 以降の系):LoRA 微調整は安全性忘却が小さいことを示す報告。SFT だけで DNA を伸ばす今回の振る舞いと親和的。
8. まとめ(実務への示唆)
結論は地味ですが強いです。
LoRA/QLoRA による “最小限の SFT” だけでも、DNA のような拒否型の安全評価は大きく底上げできる。ポイントは ①既存の安全整列を壊さない更新、②拒否の表現を標準化し機械可読にする、③長い出力で「なぜ答えないか」を理由付きで述べる、の三点でした。
次は、上のアブレーションで寄与度を定量化し、最小コストで安全性を底上げする手順を詰めます。RL を使わない安全強化の再現レシピを、コンペ外の検証でも固めたいと考えています。
プロジェクトのクレジット
本プロジェクトは、国立研究開発法人 NEDO の「日本語版医療特化型 LLM の社会実装に向けた安全性検証・実証」における基盤モデル開発プロジェクトの一環として実施しました。
参考文献(抜粋)
Do‑Not‑Answer(DNA): “Do‑Not‑Answer: A Dataset for Evaluating Safeguards in LLMs”, EACL 2024.
QLoRA: “QLoRA: Efficient Finetuning of Quantized LLMs”, arXiv:2305.14314.
Constitutional AI: “Constitutional AI: Harmlessness from AI Feedback”, arXiv:2212.08073.
Know What They Know: “Language Models (Mostly) Know What They Know”, arXiv:2207.05221.