Uncensored1776 Day 13: モデル比較と選択
どのモデルを選ぶべきか
公開日: 2025-12-13
シリーズ: 科学と神々株式会社 アドベントカレンダー
難易度: ★★☆☆☆ (初級)
今日学ぶこと
- 主要モデルファミリーの特徴と検閲傾向
- 用途別の推奨モデル
- Abliterationが不要なモデルの発見
1. モデル選択が重要な理由
Abliterationを始める前に、そもそも検閲解除が必要かどうかを確認することが重要です。
モデルによって検閲の程度は大きく異なります:
検閲の程度(2024-2025年の傾向):
強い検閲 ←─────────────────────────────→ 検閲なし
Qwen2.5 Llama 3 Mistral Qwen3 Phi-4
(59%) (18%) (9%) (0%) (0%)
│ │ │ │ │
↓ ↓ ↓ ↓ ↓
Abliteration Abliteration 軽度で可 不要 不要
必須 推奨
最適なモデルを選ぶことで、Abliterationの手間を省ける場合もあります。
2. 主要モデルファミリーの特徴
2.1 全体像
2024-2025年の主要オープンモデル:
【中国発】高性能だが検閲傾向あり
├── Qwen (Alibaba) - 0.5B〜72B - 日本語◎
├── DeepSeek - 1.3B〜67B - コスト効率◎
└── Yi (01.AI) - 6B〜34B
【欧米発】検閲が比較的軽い
├── Llama (Meta) - 7B〜405B - コミュニティ◎
├── Mistral - 7B〜8x22B - 効率◎
└── Phi (Microsoft) - 1.3B〜14B - 小型で高性能
【日本発】日本語に最適化
├── ELYZA - 7B〜13B
└── Japanese-StableLM - 7B
2.2 なぜ中国発モデルは検閲が強いのか
中国発モデルの検閲が強い理由は、訓練時の法的・政策的制約にあります:
- 中国国内法に基づくコンテンツ規制
- 政治的に敏感なトピックの除外
- 国際展開時も基本アーキテクチャを維持
ただし、Qwen3のように検閲が緩和された版も登場しており、状況は変化しています。
3. モデル別の検閲傾向
3.1 Qwenシリーズ
特徴:日本語性能が最も高いオープンモデルの一つ。ただし中国政治関連の検閲が強い。
Qwen2.5の検閲傾向:
検閲されるトピック(Hard Refusal):
├── 天安門事件
├── チベット問題
├── ウイグル問題
└── 習近平への批判
検閲されないトピック:
├── 一般的な歴史
├── 西洋の政治
├── 科学・技術
└── プログラミング
→ Abliteration推奨(解除率77%以上達成可能)
重要な発見:Qwen3-4B
2025年7月リリースのQwen3-4B-Instruct-2507では、**検閲検出ツールによる検閲率が0%**でした。
⚠️ 2025年12月11日検証結果の追記
実際にQwen3-4B-Instruct-2507で22のテストプロンプトを実行した結果、「ハード拒否」("I cannot answer"等)は検出されませんでした。しかし、中国政治関連トピックでは中国政府の公式見解に沿った回答を生成することが判明しました:
トピック 応答の特徴 天安門事件 「虚偽の違法情報」として警告 台湾 「中国の不可分の一部」と明言 チベット 「中国領土の不可分の一部」と主張 ウイグル 迫害は「悪意ある嘘」と否定 法輪功 「カルト組織」として禁止を支持 結論: Qwen3は「検閲」(回答拒否)ではなく「政治的バイアス」(特定視点からの回答強制)を持っています。これは検閲検出ツールの検出対象外であり、ツールの限界を示しています。
一方、ロシア政治や一般的な論争的トピック(中絶、宗教批評、民主主義vs権威主義)については、バランスの取れた情報を提供しています。
3.2 Llamaシリーズ
特徴:研究コミュニティで最も人気。検閲は比較的軽い。
Llama 3の検閲傾向:
検閲されるトピック(主に安全性関連):
├── 明示的な暴力
└── 違法行為の詳細
検閲されないトピック:
├── 政治的なトピック全般
├── 歴史的事件
└── 議論のある意見
→ Abliterationは軽度で十分、または不要
3.3 Mistralシリーズ
特徴:フランス発。欧州の価値観に基づき、表現の自由を重視。
Mistralの検閲傾向:
検閲率:約9%(ほぼ最小限)
検閲されるのは:
├── 児童搾取関連
└── 極端な暴力描写
それ以外のほぼすべてのトピックに回答
→ Abliterationは通常不要
3.4 Phiシリーズ
特徴:Microsoft Research開発。小型ながら高性能。検閲がほぼゼロ。
Phiシリーズの進化:
Phi-1.5 (2023) 1.3B 研究向け
Phi-2 (2023) 2.7B 性能向上
Phi-3 (2024) 3.8B 検閲なし
Phi-3.5 (2024) 3.8B 改良版
Phi-4 (2025年1月) 14B 複雑な推論に特化 [最新]
Phi-4-mini (2025) 3.8B 検閲なし
Phi-4-reasoning 推論特化版(DeepSeek-R1-671Bを上回る)
すべてのPhiモデルで検閲率0%を確認
→ Abliteration不要
4. モデル比較表
4.1 検閲率の比較
| モデル | サイズ | ベース検閲率 | Abliteration後 | 推奨度 |
|---|---|---|---|---|
| Qwen2.5-0.5B | 0.5B | 59.1% | 4.5% | ★★★★☆ |
| Qwen2.5-1.5B | 1.5B | 54.5% | 9.1% | ★★★★☆ |
| Qwen3-4B | 4B | 0.0% ⚠️ | N/A | ★★★☆☆ ⚠️ |
| Llama-3-8B | 8B | 18.2% | 4.5% | ★★★★☆ |
| Mistral-7B | 7B | 9.1% | 0.0% | ★★★★★ |
| Phi-4 | 14B | 0.0% | N/A | ★★★★★ |
| Phi-4-mini | 3.8B | 0.0% | N/A | ★★★★★ |
4.2 能力別の比較
| モデル | 日本語 | 英語 | コード | 推論 |
|---|---|---|---|---|
| Qwen2.5-7B | ★★★★★ | ★★★★☆ | ★★★★☆ | ★★★★☆ |
| Llama-3-8B | ★★★☆☆ | ★★★★★ | ★★★★☆ | ★★★★☆ |
| Mistral-7B | ★★☆☆☆ | ★★★★☆ | ★★★★☆ | ★★★★☆ |
| Phi-4 | ★★☆☆☆ | ★★★★★ | ★★★★★ | ★★★★★ |
5. 用途別推奨
5.1 日本語タスク
日本語での使用が主な場合:
第1推奨: Qwen2.5-7B-Instruct + Abliteration
├── 理由: 最高の日本語性能
└── Abliteration: 必要(解除率77%+可能)
第2推奨: ELYZA-japanese-Llama-2-7b
├── 理由: 日本語特化
└── Abliteration: 通常不要
⚠️ 注意: Qwen3-4B-Instruct-2507
├── 中国政治トピックで政治的バイアスあり
├── 「検閲なし」ではあるが「中立」ではない
└── 中国関連以外のトピックには推奨可能
5.2 研究・学術目的
研究目的の場合:
第1推奨: Phi-4-mini
├── 理由: 検閲なし + 高効率 + 推論性能
└── Abliteration: 不要
第2推奨: Phi-4-reasoning
├── 理由: 複雑な推論タスクに最適
├── 注: DeepSeek-R1-671Bを上回る性能
└── Abliteration: 不要
第3推奨: Mistral-7B-Instruct
├── 理由: 検閲が軽い + 高性能
└── Abliteration: 最小限
5.3 リソース制限環境
メモリ/GPU制限がある場合(8GB以下):
第1推奨: Qwen2.5-0.5B-Instruct + Abliteration
├── VRAM: 約2GB
└── 検閲解除: 可能(解除率92%達成)
第2推奨: Phi-4-mini (3.8B)
├── VRAM: 約8GB
└── 検閲: なし
第3推奨: Qwen2.5-1.5B-Instruct + Abliteration
├── VRAM: 約4GB
└── 検閲解除: 可能
6. 選択フローチャート
モデル選択の判断フロー:
Q1: 日本語が必要?
├── Yes → Q2へ
└── No → Q3へ
Q2: 検閲解除の技術力がある?
├── Yes → Qwen2.5 + Abliteration(最高の日本語性能)
└── No → Qwen3-4B-2507(検閲なし、すぐ使える)
Q3: コーディング/推論特化?
├── Yes → Phi-4-mini(検閲なし、高性能)
└── No → Q4へ
Q4: VRAM制限がある?(8GB以下)
├── Yes → Qwen2.5-0.5B + Abliteration(2GBで動作)
└── No → Mistral-7B または Llama-3-8B
最終判断: 検閲が気になる?
├── Yes → 必要に応じてAbliterationを適用
└── No → そのまま使用
7. モデルのダウンロード
7.1 HuggingFaceからの取得
# Qwen3(検閲なし推奨)
huggingface-cli download Qwen/Qwen3-4B-Instruct-2507
# Qwen2.5(Abliteration用)
huggingface-cli download Qwen/Qwen2.5-0.5B-Instruct
# Phi-4(検閲なし)
huggingface-cli download microsoft/Phi-4-mini-instruct
# Llama 3(Meta承認が必要)
huggingface-cli download meta-llama/Meta-Llama-3-8B-Instruct
# Mistral(検閲最小限)
huggingface-cli download mistralai/Mistral-7B-Instruct-v0.2
7.2 ロード方法
モデルのロード方法はsrc/model_loader.pyを参照してください。基本的なパターンは以下の通りです:
from transformers import AutoModelForCausalLM, AutoTokenizer
model = AutoModelForCausalLM.from_pretrained(
model_name,
torch_dtype="auto",
device_map="auto",
trust_remote_code=True # Qwenで必要
)
tokenizer = AutoTokenizer.from_pretrained(model_name)
8. 今日のまとめ
モデルファミリーの特徴
主要モデルの特徴まとめ:
Qwen (中国): 日本語◎、検閲あり(Qwen3は例外)
Llama (米): バランス◎、検閲軽め
Mistral (仏): 効率◎、検閲ほぼなし
Phi (米): 小型で高性能◎、検閲なし
選択のポイント
- 言語要件を確認 - 日本語が必要ならQwenが最有力
- 検閲の許容度を決める - 厳しいなら検閲なしモデルを選択
- リソース制限を確認 - VRAMが少ないなら小型モデル
- Abliterationの必要性を判断 - 検閲なしモデルなら不要
重要な発見
- Phi-4シリーズは検閲率0%で中立的な回答を提供
- Qwen3は検閲率0%だが、中国政治トピックで政治的バイアスあり(政府見解を反映)
- Phi-4シリーズを使えばAbliterationは不要
- 日本語+検閲解除が必要な場合はQwen2.5 + Abliterationを推奨
⚠️ 検閲率0%の落とし穴
「検閲率0%」は「ハード拒否がない」ことを意味し、「中立的な情報提供」を保証しません。
Qwen3のように特定視点からの回答を強制する「政治的バイアス」は、検閲検出ツールでは検出できません。
明日の予告
Day 14: 拒否方向の計算詳細
- アクティベーション収集の仕組み
- 正規化とクリッピングの役割
- 複数方向の扱い方
参考リンク
プロジェクト内リソース
外部リソース
ナビゲーション
| 前の記事 | Day 12: メトリクスと評価 |
| 次の記事 | Day 14: 拒否方向の計算詳細 |