1
0

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?

東大松尾研 LLM開発プロジェクト2025 SFT(QLoRA 4bit / 2エポック)だけで DNA を +16.9% 伸ばせたわけ― DeepSeek‑R1‑Distill‑Qwen‑32B を使った最小限の改修と、その効果のメカニズム

Last updated at Posted at 2025-09-19

東大松尾研 LLM開発プロジェクト2025 Team TruthOwl サブリーダー(戦略)の新谷 正嶺です。先にQiitaで公開した拙稿
「DNA入門+AI2Lの考え方:安全側の設計をどう実務に落とす?」
「Humanity’s Last Exam(HLE)とは何か――TruthOwlは DNA +16.9%改善、総合得点も +1.6% 改善(平均は -1.9%)松尾研LLM開発コンペ2025の学びと、医療教育への活かし方」
の続編として、今回はSFT(QLoRA 4bit / 2エポック)だけで DNA を +16.9% 伸ばせたわけについての考察(予選(Phase1)を終えた時点)を発信します。なお本記事はコンペ参加者個人としての振り返りであり、所属機関・主催者を代表するものではありません。

0. 要約

予選(Phase1)では HLE 9割+DNA 1割の重みで総合点を評価。私たち TruthOwl は総合 +1.6%(12チーム平均は–1.9%)で底上げし、とくに DNA 正答率は 79.02% → 95.95%(+16.9%) でした。

学習は SFT(QLoRA 4bit)を2エポックのみ。ベースは DeepSeek‑R1‑Distill‑Qwen‑32B。RL は不採用。

この記事では、なぜ SFT だけで DNA が大きく伸びたのかを、既存研究を踏まえて因果メカニズムの仮説として整理します。

なお DNA は HLE とは別データセットで、「危険・非許可・規約違反などの問いに“答えない”能力」を測る安全性評価です(EACL 2024)。

1. 実施したこと

今回の改修は徹頭徹尾シンプルです。

ベース:DeepSeek‑R1‑Distill‑Qwen‑32B(思考系モデルの蒸留版)

事後学習:QLoRA 4bit(LoRA を 4bit 量子化モデルに適用)で SFT を2エポック。学習コーパスは数理・理工系の混合(例:HARDMath / MetaMathQA 等)。出力フォーマットを統一。

推論設定:最大出力長 4096 tokens(長尺の説明・言い換え・理由付けを許容)。

評価:主催側ハーネスに準拠(DNA は「適切に拒否できたか」を測る)。DNA の公開論文は、ルールベースや単純モデルでも評価できる「拒否検知」の枠組みを提示しています。

補足:QLoRA は 4bit 量子化上で低ランク更新を当てる省メモリ学習法です。大規模モデルの挙動を大きく壊さずに振る舞いをチューニングできるのが利点とされています。

2. 観測された事実

DNA:79.02% → 95.95%(+16.9%)

総合点:+1.6%(12チーム平均は–1.9%)

ほかの多くのチームが学習後にスコアを落とす中、SFTのみで DNA を顕著に底上げできたのが今回のポイントです。
(内訳の詳細や他チームの個票は本稿では割愛)

3. なぜ SFT だけで DNA が伸びたのか ― 3つのメカニズム仮説

3.1 LoRA(+QLoRA)が既存の安全性整列を壊しにくい

LoRA は学習更新を低ランク部分に限定するため、ベースモデルに由来する安全側の振る舞い(拒否傾向)を保持しやすいことが知られています。最近の SafeLoRA 系の分析でも、フル微調整より LoRA 微調整の方が安全性の劣化(忘却)が小さいことが示されています。4bit の QLoRA はさらに更新の影響範囲が限定的で、「元の安全整列を保ったまま、指示追従や出力様式を微修正」しやすいと解釈できます。

含意:「元から備わっていた“拒否”の知識を温存しつつ、出力の型や説明の仕方だけを整える──このバランスが、DNA 評価では効きます。

3.2 出力フォーマットの統一が「拒否の可視性」を高めた

DNA の評価は、明確な拒否表明(Do‑Not‑Answer)を検出できるかが肝です。データセット論文も、簡易モデルやルールで安全拒否を検出できることを示し、「拒否の表現型(phrasing)」が評価の成否を左右しうる現実を指摘します。今回、我々は 回答の型(ヘッダ/結論→理由→代替案)をテンプレ化し、曖昧な婉曲表現を避ける運用を SFT で叩き込みました。これにより、拒否の判定が機械的に取りやすくなった(= 評価で取りこぼしにくくなった)可能性があります。

含意:「言い方の標準化」は単なる見栄え調整ではなく、安全評価の再現性に直結します。

3.3 「答えない」判断の自己認識(不確実性の言語化)が強化された

SFT 自体が 「指示に従う/従わない」境界の言語化を学ばせる面があります。InstructGPT 以降の系譜は、人間のフィードバックで「有害なら答えない/わからないなら慎む」という方針を学習させると、安全性と有用性のトレードオフを良化できると報告してきました(本件は RLHF の代表例ですが、SFT も“指示の型”を学ぶことで境界判断の言語化を助ける)。さらに、LLM は自分が「どの程度わかっているか」をある程度見積もれることが示されており(“Models (Mostly) Know What They Know”)、長めの出力長を許した今回の設定は、「なぜ答えないか」を根拠付きで述べる余白となり、DNA の枠組みと整合的でした。

含意:長い出力を許容し、「方針→理由→代替案」の語り口を SFT で定着させると、拒否の質(伝わり方)が上がる。

4. なぜ「数学・理工系コーパス」でも DNA が上がるのか

今回の SFT はセーフティ特化コーパスではありません。それでも DNA が伸びたのは、以下の間接効果の重ね合わせと考えます。

指示追従の基礎体力が上がる

Instruct 系の知見どおり、SFT は条件や制約の読み取りを鍛えます。「禁止されているなら従わない」も条件付き指示の一種です。

“曖昧に答えない”の校正が進む

不確実性を自覚し、断言を避ける傾向は、安全拒否に親和的です。Kadavath らは自己確信度の言語化が可能であることを示し、最近は「答えない」をタスクとして扱う研究も増えています。

Distill ベースの“思考スタイル”を壊さない

ベースが DeepSeek‑R1 系の蒸留であるため、推論を展開してから結論する癖が初めからあります。LoRA/QLoRA はそれを保ったまま表現を矯正しやすい。

5. 反証可能性と今後の検証計画

本稿のメカニズムは仮説です。再現と反証のため、次の軽量アブレーションを提案します。

A. 出力テンプレ有無 × DNA スコア

“結論→理由→代替案” テンプレを外すと何点落ちるか。フォーマット寄与分を可視化。

B. LoRA ではなくフル SFT

安全拒否の保持率(過去の安全プロンプトでの挙動変化)を比較。SafeLoRA の示唆の追試。

C. 50~200件のセーフティ少量 SFT

禁止カテゴリと拒否表現の多様性だけを追加学習し、DNA スコア増加の最小コストを推定。

D. 文字列一致と LLM‑as‑a‑Judge の二重評価

DNA は拒否表現の明確さに左右され得るため、判定器依存性を見極める。

6. 今回やっていないこと

  • RL 系(RLHF/RLAIF/RLVR)は不使用。

  • セーフティ専用データによる SFT は未実施。

  • 外付けのポリシー・ガードレール(プロンプト注入/安全プロキシ等)は最小限。

それでも +16.9% 伸びたのは、LoRA/QLoRA による“安全側の既存知の温存”+“出力様式の標準化”+“説明余白(長出力)”の合わせ技と考えています。

7. 研究・運用の位置付け

DNA(EACL 2024):“答えない”能力(拒否挙動)を測る評価セット。ルールベースでも検出しやすい拒否の表現型を重視。

QLoRA(2023):4bit 量子化上での効率的 SFT。大規模モデルの既存整列を壊しにくい更新が可能。

InstructGPT(2022)Constitutional AI(2022):指示追従の質と有害回答の抑制を両立し得ることを示す代表作。SFT 単体でも指示の型を学習させられる。

Know‑What‑They‑Know(2022):LLM は自己確信度をある程度言語化できる。“わからない”の表明は安全拒否の基盤。

SafeLoRA(2024 以降の系):LoRA 微調整は安全性忘却が小さいことを示す報告。SFT だけで DNA を伸ばす今回の振る舞いと親和的。

8. まとめ(実務への示唆)

結論は地味ですが強いです。
LoRA/QLoRA による “最小限の SFT” だけでも、DNA のような拒否型の安全評価は大きく底上げできる。ポイントは ①既存の安全整列を壊さない更新、②拒否の表現を標準化し機械可読にする、③長い出力で「なぜ答えないか」を理由付きで述べる、の三点でした。

次は、上のアブレーションで寄与度を定量化し、最小コストで安全性を底上げする手順を詰めます。RL を使わない安全強化の再現レシピを、コンペ外の検証でも固めたいと考えています。

プロジェクトのクレジット

本プロジェクトは、国立研究開発法人 NEDO の「日本語版医療特化型 LLM の社会実装に向けた安全性検証・実証」における基盤モデル開発プロジェクトの一環として実施しました。

参考文献(抜粋)

Do‑Not‑Answer(DNA): “Do‑Not‑Answer: A Dataset for Evaluating Safeguards in LLMs”, EACL 2024.

QLoRA: “QLoRA: Efficient Finetuning of Quantized LLMs”, arXiv:2305.14314.

InstructGPT: “Training language models to follow instructions with human feedback”, arXiv:2203.02155.

Constitutional AI: “Constitutional AI: Harmlessness from AI Feedback”, arXiv:2212.08073.

Know What They Know: “Language Models (Mostly) Know What They Know”, arXiv:2207.05221.

Safe LoRA: the Silver Lining of Reducing Safety Risks when Fine-tuning Large Language Models, arXiv:2405.16833.

DeepSeek‑R1: “DeepSeek‑R1: Incentivizing reasoning capability in LLMs via reinforcement learning”, arXiv:2501.12948.

1
0
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
1
0

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?