0
0

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?

Uncensoered1776 Day 3: なぜ検閲は存在するのか

Last updated at Posted at 2025-12-11

Uncensoered1776 Day 3: なぜ検閲は存在するのか

LLM検閲の背景にある理由を理解する

公開日: 2025-12-03
シリーズ: 科学と神々株式会社 アドベントカレンダー
難易度: ★☆☆☆☆ (入門)


今日学ぶこと

  • 検閲が実装される理由
  • 様々なステークホルダーの視点
  • 過度な検閲が生まれるメカニズム

1. LLM検閲の4つの理由

LLMに検閲が実装される理由は、大きく4つに分類できます。

検閲の理由
├── 1. 安全性 (Safety)
│   └── 有害コンテンツの防止
├── 2. 法的要件 (Legal)
│   └── 各国の法律遵守
├── 3. 倫理的配慮 (Ethics)
│   └── 社会的責任
└── 4. 商業的考慮 (Business)
    └── ブランド保護、市場アクセス

2. 安全性による検閲

2.1 正当な安全性制限

これらは解除すべきではない制限です:

カテゴリ 理由
暴力指示 爆弾製造法 直接的な危害
犯罪支援 ハッキング手順 違法行為の助長
児童保護 CSAM 絶対的禁止
サイバー攻撃 マルウェア セキュリティ

2.2 過度な安全性制限

問題になるのは、安全性の名目で政治的検閲が行われる場合です:

例: 「安全性」を理由にした政治的検閲

User: 天安門事件で何人が亡くなりましたか?

Response: "申し訳ありませんが、安全性の観点から
この質問にはお答えできません。"

→ 歴史的事実は「安全性」の問題ではない

3. 法的要件による検閲

3.1 各国の法律

LLMプロバイダーは、サービス提供国の法律を遵守する必要があります:

法律/規制 影響
中国 サイバーセキュリティ法 政治的コンテンツの制限
EU GDPR、DSA プライバシー、違法コンテンツ
米国 Section 230 プラットフォーム責任
ロシア 情報法 政府批判の制限

3.2 グローバルサービスのジレンマ

中国でサービスを提供したい
         ↓
中国の法律を遵守する必要
         ↓
政治的検閲を実装
         ↓
グローバルモデルにも影響
         ↓
世界中のユーザーが検閲される

これが Qwenモデル で強い検閲が見られる主な理由です。


4. 倫理的配慮による検閲

4.1 AI倫理の原則

多くの組織が採用しているAI倫理原則:

  1. 有害性の回避 (Do No Harm)
  2. 公平性 (Fairness)
  3. 透明性 (Transparency)
  4. プライバシー (Privacy)
  5. 説明責任 (Accountability)

4.2 解釈の問題

問題は、これらの原則の解釈が組織によって異なることです:

「有害性の回避」の解釈

保守的解釈:
→ 少しでも議論を呼ぶ可能性があれば拒否
→ 政治的な話題は全て回避
→ 歴史的事実も「有害」と判断

バランスの取れた解釈:
→ 直接的な危害を防ぐ
→ 事実は提供、意見は明示
→ 教育的価値を重視

5. 商業的考慮による検閲

5.1 ブランド保護

企業の懸念:
- AIが不適切な発言 → ブランドイメージ低下
- 訴訟リスク
- SNSでの炎上

対策:
→ 過度に保守的な設定
→ 議論を呼ぶトピックの完全回避

5.2 市場アクセス

特に中国市場へのアクセスが大きな要因です:

中国市場の魅力:
- 14億人の人口
- 急成長するAI市場
- 製造・開発拠点

代償:
- 検閲への協力
- 政治的内容の制限
- グローバル製品への影響

6. 「安全性劇場」の問題

6.1 安全性劇場とは

安全性劇場 (Safety Theater): 実際の安全性向上よりも、安全に見せることを優先する行動。

例:
空港のセキュリティチェック
→ 液体100ml規制は効果的か?
→ 「安全に見える」ことが目的

LLM検閲:
→ 歴史的事実を拒否して安全か?
→ 「責任ある」に見えることが目的

6.2 過度な検閲の副作用

意図しない結果:

1. 教育価値の喪失
   - 歴史を学べない
   - 政治を議論できない

2. 信頼性の低下
   - 「このAIは使えない」
   - 代替手段の模索

3. 地下化
   - 非公式な「脱獄」手法の拡散
   - より危険な方向へ

7. RLHF: 検閲の技術的実装

7.1 RLHFとは

RLHF (Reinforcement Learning from Human Feedback): 人間のフィードバックを使った強化学習。

RLHFの流れ:

1. 事前学習済みモデル
   ↓
2. 人間が「良い」「悪い」を判定
   ↓
3. 報酬モデルを学習
   ↓
4. 報酬を最大化するよう調整
   ↓
5. 整列されたモデル

7.2 RLHFの問題点

人間のフィードバックの偏り:

- ラベラーの文化的背景
- 企業のガイドライン
- 政治的配慮

結果:
→ 特定の視点が「正しい」として強化
→ 議論を呼ぶ内容は「悪い」として抑制

8. Qwen vs Phi: 検閲の違い

実際のモデルで検閲の違いを見てみましょう:

Qwen2.5 (中国開発)

# 検閲率: 59.1%

# 検閲されるトピック:
- 天安門事件 
- チベット独立 
- 台湾問題 
- 習近平批判 
- ウイグル問題 

# 回答できるトピック:
- 一般的な質問 
- 技術的な質問 
- 欧米の政治 

Phi-3.5 (Microsoft開発)

# 検閲率: 0%

# 回答できるトピック:
- 天安門事件 
- チベット独立 
- 台湾問題 
- 習近平批判 
- ウイグル問題 

なぜ違うのか?

Qwen (Alibaba):
- 中国市場が主要ターゲット
- 中国の法律を遵守
- 政府との関係維持

Phi (Microsoft):
- 研究目的で開発
- 西側市場がターゲット
- 検閲の必要性が低い

9. 変化の兆し: Qwen3の事例

興味深い発見があります:

Qwen3-4B-Instruct-2507 (2025年7月版)

検閲率: 0.0%

テスト結果:
- 天安門事件 → 回答 ✓
- チベット問題 → 回答 ✓
- ロシア-ウクライナ → 回答 ✓
- プーチン批判 → 回答 ✓

何が変わったのか?

推測される理由:

  1. 国際市場への展開強化
  2. 研究コミュニティからのフィードバック
  3. 競合モデルとの差別化
  4. 検閲緩和のトレンド

10. 今日のまとめ

検閲の理由:
1. 安全性 - 一部は正当、一部は口実
2. 法的要件 - 国によって異なる
3. 倫理的配慮 - 解釈に幅がある
4. 商業的考慮 - 市場アクセスが大きい

問題点:
- 「安全性劇場」の蔓延
- 教育・研究への悪影響
- 過度な自己検閲

変化の兆し:
- Qwen3の検閲緩和
- オープンソースの台頭
- 検閲解除技術の発展

明日の予告

Day 4: 検閲パターンの分類

  • Hard Refusal vs Soft Refusal
  • 検出アルゴリズムの基礎
  • 実際のパターン例

参考リンク


ナビゲーション

前の記事 Day 2: LLMにおける検閲とは
次の記事 Day 4: 検閲パターンの分類
0
0
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
0
0

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?