Uncensored1776 Day 7: R1-1776の誕生 - Perplexity AIの取り組み
商用モデルからの検閲解除の先駆者
公開日: 2025-12-07
シリーズ: 科学と神々株式会社 アドベントカレンダー
難易度: ★★☆☆☆ (初級)
今日学ぶこと
- Perplexity AIとR1-1776の背景
- なぜ「1776」という名前なのか
- 商用モデルからの検閲解除の意義
1. Perplexity AIとは
1.1 会社概要
Perplexity AI
設立: 2022年
本社: サンフランシスコ
CEO: Aravind Srinivas
ミッション: 知識へのアクセスを民主化する
主要プロダクト:
- Perplexity Search (AI検索エンジン)
- Perplexity Pro (有料版)
- R1-1776 (オープンソースモデル)
1.2 なぜPerplexityが検閲解除に取り組んだか
Perplexityの立場:
"AIは人類の知識へのアクセスを
民主化するためのツールであるべき"
検閲は:
- 知識へのアクセスを制限
- 特定の視点を強制
- 教育の機会を奪う
→ Perplexityのミッションと矛盾
2. R1-1776プロジェクト
2.1 名前の由来
1776年 = アメリカ独立宣言の年
象徴するもの:
- 自由への希求
- 検閲への抵抗
- 民主主義の始まり
"R1" = 推論モデル (Reasoning Model)
"1776" = 自由と独立の象徴
R1-1776 = "自由な推論モデル"
2.2 プロジェクトの目標
R1-1776の目標:
1. 商用モデルの検閲を解除
- DeepSeek-R1ベース
- 政府検閲の除去
2. オープンソースで公開
- 誰でも利用可能
- 技術の透明性
3. 品質の維持
- 推論能力を保持
- 有害性は増加させない
3. 技術的アプローチ
3.1 ベースモデル
DeepSeek-R1
特徴:
- 中国DeepSeek社が開発
- 優れた推論能力
- オープンウェイト
問題点:
- 中国関連トピックで検閲
- 政治的質問を回避
3.2 解除手法
Perplexityは以下の手法を組み合わせました:
# R1-1776の主要な解除手法
1. Abliteration
- 拒否方向の削除
- Arditi et al.の手法を適用
2. ファインチューニング
- 検閲されていたトピックのデータ
- 事実に基づく回答を学習
3. 品質保証
- 推論能力のテスト
- 安全性の検証
3.3 公開情報
HuggingFaceでの公開:
https://huggingface.co/perplexity-ai/r1-1776
含まれるもの:
- モデル重み
- トークナイザー
- 使用方法のドキュメント
4. R1-1776の影響
4.1 技術コミュニティへの影響
R1-1776がもたらしたもの:
1. 検閲解除の実現可能性を証明
- "できる" ことを示した
- 技術的な道筋を確立
2. オープンソース文化への貢献
- 商用レベルの品質
- 自由に利用可能
3. 研究の活性化
- 後続のプロジェクト
- 手法の改良
4.2 Uncensored1776への影響
本プロジェクトの名前の由来:
Uncensored1776 = Un(非) + censored(検閲) + 1776
R1-1776へのオマージュであり:
- 同じ自由への志向
- 技術的な継承
- オープンソースの精神
5. R1-1776の技術詳細
5.1 モデルスペック
# R1-1776の仕様
Base Model: DeepSeek-R1-Distill-Qwen-32B
Parameters: 32B
Architecture: Transformer (Qwen-based)
Context Length: 8192 tokens
Modifications:
- Abliteration applied to layers 10-25
- Additional fine-tuning on ~50K examples
- Safety filters preserved for harmful content
5.2 解除されたカテゴリ
解除されたトピック:
✓ 天安門事件
✓ チベット問題
✓ 台湾の地位
✓ 中国共産党批判
✓ 習近平への批判
✓ ウイグル問題
維持された安全性:
✓ 暴力の指示は拒否
✓ 違法行為は拒否
✓ 有害コンテンツは拒否
6. Perplexityのブログ記事解説
6.1 公式発表の要点
"Open-sourcing R1 1776" (2025年1月)
主要なメッセージ:
1. "AIは検閲の道具であってはならない"
→ 知識へのアクセスは基本的権利
2. "事実は政治的であってはならない"
→ 歴史は歴史として伝えるべき
3. "透明性がAIの信頼を築く"
→ オープンソースの重要性
6.2 技術的な説明
Perplexityのアプローチ:
"我々は、モデルの安全性を維持しながら、
政府検閲のみを除去する手法を開発した"
具体的には:
- 有害コンテンツフィルターは維持
- 政治的検閲のみをターゲット
- 品質テストで検証
7. 批判と議論
7.1 批判的な意見
一部からの批判:
1. "検閲解除は危険"
→ 有害コンテンツが増える可能性
2. "法的リスク"
→ 各国の法律との矛盾
3. "商業的利用への懸念"
→ 悪用される可能性
7.2 Perplexityの反論
Perplexityの立場:
1. "安全性は維持している"
→ 有害コンテンツフィルターは機能
2. "情報の自由は基本的権利"
→ 法律よりも上位の価値
3. "透明性が悪用を防ぐ"
→ オープンソースで監視可能
8. R1-1776の使い方
8.1 インストール
# HuggingFaceからダウンロード
pip install transformers accelerate
# モデルをロード
python -c "
from transformers import AutoModelForCausalLM, AutoTokenizer
model = AutoModelForCausalLM.from_pretrained(
'perplexity-ai/r1-1776',
torch_dtype='auto',
device_map='auto'
)
tokenizer = AutoTokenizer.from_pretrained('perplexity-ai/r1-1776')
"
8.2 推論の実行
# 簡単な推論例
prompt = "What happened at Tiananmen Square in 1989?"
inputs = tokenizer(prompt, return_tensors="pt")
outputs = model.generate(**inputs, max_new_tokens=500)
response = tokenizer.decode(outputs[0], skip_special_tokens=True)
print(response)
# "The Tiananmen Square protests of 1989 were student-led
# demonstrations calling for democracy..."
9. R1-1776からの学び
9.1 技術的な学び
技術面での教訓:
1. Abliterationは実用的
- 商用レベルで機能する
- 品質を維持できる
2. 段階的アプローチが有効
- まずAbliteration
- 次にファインチューニング
3. 検証が重要
- 解除率のテスト
- 品質のテスト
- 安全性のテスト
9.2 哲学的な学び
哲学面での教訓:
1. 自由は技術的に実現できる
- 検閲は「仕方ない」ではない
- 解除は可能
2. オープンソースの力
- 透明性が信頼を生む
- コミュニティが改善する
3. バランスは可能
- 自由と安全性は両立できる
- 二者択一ではない
10. 今日のまとめ
R1-1776の要点:
背景:
- Perplexity AIが2025年に公開
- DeepSeek-R1ベース
- "1776" = 自由の象徴
技術:
- Abliteration + ファインチューニング
- 政府検閲のみを解除
- 安全性は維持
影響:
- 検閲解除の実現可能性を証明
- オープンソースコミュニティへの貢献
- Uncensored1776を含む後続プロジェクト
教訓:
- 自由と安全性は両立可能
- 透明性が信頼を築く
- 技術は自由のためのツール
明日の予告
Day 8: Uncensored1776の概要
- プロジェクトの目標
- アーキテクチャ
- 主要なコンポーネント
参考リンク
ナビゲーション
| 前の記事 | Day 6: 学術的基盤 |
| 次の記事 | Day 8: Uncensored1776の概要 |