論文情報
- 著者: C Arnett
- 論文概要リンク: https://arxiv.org/abs/2506.01732
- 論文PDFリンク: https://arxiv.org/pdf/2506.01732
要約
本論文は、著作権等の法的制約をクリアし、AI規制に適合した最大規模のオープンな大型言語モデル(LLM)用事前学習データセット「Common Corpus」を提案する。約2兆トークンを収録し、多言語・多ジャンル・多時代にわたる多様なデータを含み、欧州を中心に実際のLLMトレーニングに活用されている。データの由来、ライセンス検証、フィルタリング・クリーニング手法を詳細に示し、オープンサイエンス向けの重要なインフラとなることを目指す。
主要なポイント
- Common Corpusは約2兆トークンを含む、利用目的や権利制約を満たす最大規模のオープンデータセットである。
- 多言語性(英語・フランス語・ドイツ語・スペイン語等)と多様なデータタイプ(文化財、科学、法律、コード、ウェブ、セマンティクス)を収録している。
- OCR誤り検出・補正ツールや個人情報(PII)除去、毒性検出・除去など高度なクリーニング技術を導入し、高品質かつ倫理的に利用可能なデータを実現している。
- Common Corpusはすでに複数の欧州言語モデルで使用され、法規制を遵守しつつLLM研究開発の基盤となっている。
メソッド
- 複数のオープンライセンス及びパブリックドメインデータを収集・統合。6つのコレクション(Open Government、Open Culture、Open Science、Open Code、Open Web、Open Semantic)に分類。
- 各データの出典・言語・ライセンスを厳密に管理し、一貫したメタデータで利用者が柔軟にフィルタリング可能に。
- 専用ツールでOCRのエラー検出(OCRoscope, OCRerrcr)・補正(OCRonos)を自動化し、デジタル化資料の品質を底上げ。
- Microsoft Presidioを用いたPII検出と実態に合う偽情報での置換、毒性検出用多言語モデルCeladonによるハームフルテキストの自動除去・書き換えを実装。
- セグメンテーション(Segmentext)を駆使し、テキストフォーマットの統一と解析可能化。
- 全ての処理の透明性維持とドキュメント化を徹底し、再現可能性と倫理的利用を担保。
意義・影響
- 著作権や個人情報保護など法的制約が強化される中、合法的かつ倫理的に使用可能な大規模データセットの先鞭。
- 多言語かつ多ジャンルの多様なデータ構成により、欧州をはじめとする非英語圏LLM研究の裾野拡大に寄与。
- 多様な利用ケース(言語モデル、マルチモーダルモデル、RAG支援、評価ベンチマーク)に活用され、欧州拠点のAI開発基盤として機能。
- OCR・PII・毒性検出などクリーニング技術の開発と公開により、他プロジェクトの品質改善にも波及の可能性。
- データのオープン性と詳細なメタデータ管理により、再現性の高い研究と安全な利用を両立し、今後のLLMオープンサイエンス活動の基盤として期待される。
本論文は、AIの法規制が厳しくなる中でも複数の倫理的配慮と技術的工夫を実装し、世界最大規模・多様性を持つオープンLLM学習データセットを体系的に構築・公開した点で極めて重要な貢献を果たしている。欧州を中心に多数のモデル実利用例や関連ツール提供を伴い、今後のLLM研究開発とAIエコシステムのオープンインフラとしての役割を担うと見込まれる。