C4 (Colossal Clean Crawled Corpus) データセット とは?
Common Crawl から派生したデータセット。
Common Crawl はインターネットから取得したテラバイト規模のデータセットで、生データを含んでいます。
生データは基本的に品質が悪いため、生データを加工して品質を上げる必要があります。
そのため、Common Crawl を過去して派生したデータセットが様々存在しており、C4 もその一つです。
C4 と Common Crawl の違い
C4 はインターネット全体の 3 億 6500 万以上のドメインから収集された 1560 億以上のトークンものデータセットです。
C4 は Common Crawl の断面に対して、重複、無意味なコンテンツ、非英語のコンテンツ、および不適切な材料を除去するためのフィルタリングを実施して作られたデータセットです。
C4 は配布されているものだけでなく、提供されているスクリプトを使えば自分でも再現できるようですが、作成には数千ドルの費用がかかるようです。
フィルタリングの詳細
Common Crawl は、スクレイピングされた HTML ファイルからマークアップやその他の非テキストコンテンツを除去することによって「ウェブ抽出テキスト」を提供するウェブアーカイブです。が、実際はテキストの大部分は自然言語ではありません。
Common Crawl にはメニューやエラーメッセージ等の定型文のテキストや意味のない文章、重複したテキストが含まれています。
さらに、テキストのかなりの部分に、タスクに役立つ可能性が低いコンテンツ(攻撃的な言語、プレースホルダーテキスト、ソースコードなど)が含まれています。
これらの問題に対処するため、C4 では以下の処理を行っています:
- 終端句読点(すなわち、ピリオド、感嘆符、疑問符、または終わりの引用符)で終わる行のみを保持
- 3文未満のページを破棄し、少なくとも5単語を含む行のみを保持
- 「攻撃的や性的な悪い言葉のリスト」にある任意の単語を含むページを削除
- スクレイプされた多くのページには、Javascript が有効にされるべきであるという警告が含まれていたので、単語 Javascript を含む行をすべて削除
- いくつかのページにはプレースホルダーの「lorem ipsum」テキストがあったため、「lorem ipsum」というフレーズが現れるページをすべて削除
- 一部のページには誤ってコードが含まれている。波括弧「{」は多くのプログラミング言語(ウェブ上で広く使用されている Javascript など)に現れますが、自然なテキストには現れないと考え、波括弧を含むページをすべて削除
- スクレイプされたページのいくつかは Wikipedia からのもので、引用マーカー(例:[1]、[citation needed] など)が含まれていたため、そのようなマーカーをすべて削除
- 多くのページには定型的なポリシー通知があったので、「terms of use」、「privacy policy」、「cookie policy」、「uses cookies」、「use of cookies」、または「use cookies」という文字列を含む行をすべて削除
- データセットの重複を排除するために、データセット内で一度以上発生する任意の 3 文スパンのすべてを 1 つを除き削除
- C4 では英語データセットの作成が目的のため、langdetect を使用して、少なくとも 0.99 の確率で英語と分類されていないページをすべてフィルタリング
C4 の統計
インターネットドメイン
C4 を構成するトークン数をドメインごとに分類すると、以下の画像のようになるようです。
Top 10 のドメインを詳しく見ると
-
patents.google.com
,patents.com
:特許サイト。クリーンなコーパスには、特許テキストドキュメントの大量が含まれているようですが、その中でもpatents.google.com
は多いみたいです。 -
en.wikipedia.org
,en.m.wikipedia.org
:Wikipedia -
www.nytimes.com
,www.latimes.com
,www.theguardian.com
,www.forbes.com
,www.huffpost.com
: ニュースサイト。それぞれ New York Times, Los Angels Times, The Guardian。 -
journals.plos.org
: 学術雑誌の出版社のサイト。
日付
正確には取れないので、インターネットアーカイブに初めて引っかかった日付を登録している。
が、数か月遅れで登録されるものもあるので、完全に信用はできないみたいです。
位置情報
ウェブページがホストされている場所を位置情報として登録している。
C4 の注意点
機械生成テキスト
正確な数はわからないが、特許サイト等に機械翻訳された文章が含まれている可能性がある。
また、こういったテキストコーパスは今後生成 AI の利用の増加によって徐々に機械生成テキストが増加してくることが予想される。
入力汚染
例えば GLUE ベンチマークのようなモデルの性能の測定に使われるベンチマークの答えがテキストコーパスに含まれる可能性がある。
利用するベンチマークの問題が leakage していないか要確認。
バイアス
人種的なバイアス等含んでいる可能性あり。実際に C4 で学習したモデルに対して、特定の人種にバイアスがないかを既存のベンチマークで測定したところ、ユダヤ人は肯定的で、アラブ人は否定的な回答が生成された。
除外されたテキスト
主に攻撃的・性的なコンテンツ等除外しているが、性的でないものも一緒に除外されている。
除外は機械的に行っているため、例えば、同性愛の結婚やデートに関するトピックなど、攻撃的でも性的でもないのにはじかれていたりする。