LLM トレーニングデータの進化するランドスケープ

Posted at 2025-08-15

本記事の作成者：Farruh, Alibaba Cloud

説明

データセットは、特にチャットボットからコンテンツジェネレーターまであらゆるものを強化する大規模言語モデル (LLM) のトレーニングにおいて、人工知能の生命線です。これらのデータセットは、AI モデルがその機能を学習および開発する基盤を形成します。しかし、より高度な AI システムの需要が高まるにつれて、高品質かつ多様で広範なデータセットの必要性も高まっています。この記事では、これまでのデータセットの利用方法、LLM トレーニングのさまざまな段階で必要なデータの種類、およびこれらのデータセットの調達と利用で直面する課題について詳しく説明します。

AI におけるこれまでのデータセットの利用方法

AI 研究の初期段階では、データセットは百科事典、議会の議事録、電話の録音、天気予報など、さまざまなソースから細心の注意を払ってキュレーションされていました。各データセットは特定のタスクに対処し、関連性と品質を確保するように調整されました。しかし、2017 年に現代の言語モデルにとって極めて重要なニューラルネットワークアーキテクチャであるトランスフォーマーが登場したことで、圧倒的な量に注目が集まるようになり、AI 研究のアプローチに大きな変化が見られました。研究者は、大規模なモデルとデータセットで LLM のパフォーマンスが大幅に向上することに気づき、インターネットから無差別にデータスクレイピングが行われるようになりました。

2018 年までに、インターネットはオーディオ、画像、ビデオを含むすべてのデータタイプの主要なソースになりました。この傾向は今も続いており、インターネットから取得されたデータと手動でキュレーションされたデータセットとの間に大きなギャップが生じています。また、規模に対する需要から、実際の相互作用から収集されるのではなく、アルゴリズムによって生成されたデータである合成データが広く使用されるようになりました。

LLM トレーニングに必要なデータの種類

事前トレーニング

事前トレーニングは初期段階であり、モデルは、一般的な言語パターンと構造を学習するために膨大な量のテキストデータにさらされます。この段階でモデルに必要なものは以下の通りです。

多様なテキストソース：AI モデル開発の重要な要素である幅広い理解を確実に行うために、データは幅広いトピックと言語から取得する必要があります。
数量：モデルを効果的にトレーニングするには、数十億のトークンが必要です。
品質管理：数量は重要ですが、ベースラインレベルの品質を維持することで、モデルが誤った情報や偏った情報を学習することを防ぐことができます。ソースには、多くの場合、Web ページ、書籍、記事、およびその他の公開されているテキストが含まれます。

しかし、著作権で保護された資料を許可なく使用した場合、倫理的な問題が発生します。

継続的な事前トレーニング

継続的な事前トレーニングでは、新しいデータでモデルを更新して最新の状態に保ち、知識ベースを改善します。この段階で必要なものは以下の通りです。

新しいデータ：最新の情報とトレンドを取り込みます。
ドメイン固有のデータ：業界のニーズに応じて、特殊なデータセット (たとえば、ヘルスケアアプリケーションには医学雑誌) が必要になる場合があります。

ファインチューニング

ファインチューニングで、事前トレーニングされたモデルを特定のタスクまたはドメインに適応させます。通常、より小さく、よりターゲットを絞った、慎重にラベル付けされ、キュレーションされたデータセットが使用されます。例：

タスク固有のデータ：感情分析には注釈付きレビューが必要な場合がありますが、質問応答システムには質問と回答のペアが必要です。
ドメインへの適応：法律文書、科学論文、または専門的なアプリケーションのための技術マニュアル。

このプロセスで使用されるデータセットとメソッドの例を以下に示します。

ファインチューニングデータセットの例

タスク固有のデータ：感情分析のために使用される Stanford Sentiment Treebank (SST-2) は、ポジティブまたはネガティブとしてラベル付けされた注釈付き映画レビューを含む広く使用されているデータセットです。同様に、質問応答システムでは、多くの場合、SQuAD (Stanford question answering Dataset) が使用されます。質問とコンテキストベースの回答が組み合わされます。
ドメイン適応：法務での利用では、注釈付きの司法判決のコレクションである CaseLaw Corpus が採用されますが、医療モデルでは、科学文献分析に PubMed Abstracts を使用できます。

主なファインチューニングの方法

Parameter-Efficient Fine-Tuning (PEFT)：LoRA (低ランク適応) またはアダプターレイヤーなどの PEFT 技術では、モデルのパラメーターの小さなサブセットのみを更新し、パフォーマンスを維持しながら計算コストを削減できます。たとえば、LoRA は元のモデルの重みを凍結し、トレーニング可能な低ランク行列を特定のレイヤーに追加します。
Instruction Fine-Tuning：この方法では、タスク固有の命令と入出力の例を組み合わせてモデルをトレーニングします。たとえば、"Classify the sentiment of this review: [text]" のような指示に対してファインチューニングされたモデルは、明示的なコマンドに従うことを学習し、実際に使用される際のユーザービリティが向上します。
Transfer Learning：事前にトレーニングされたモデルが、ドメイン固有のコーパスのファインチューニングによって新しいドメインに適合されます。例えば、汎用 LLM を EDGAR SEC Filings の財務報告書でファインチューニングして、株式市場の分析に特化させることができます。

キュレーションされたデータセットと PEFT などの高度な方法を組み合わせることで、研究者と開発者は、リソースの制約とスケーラビリティの課題に対処しながら、ニッチアプリケーション用に LLM を最適化できます。

強化学習

人間のフィードバックによる強化学習 (RLHF) は、人間の好みによりよく一致するようにモデルをトレーニングすることを含みます。この段階で必要なものは以下の通りです。

人間のフィードバック：モデルの動作を方向付けるために人間によって提供される評価または修正です。
インタラクティブデータ：モデルが即座にフィードバックを受け取るリアルタイムのインタラクションです。

以下に、RLHF の中心となるデータセットとメソッドの例を示します。

RLHF データセットの例

選好データセット：RLHF は、人間がモデル出力をランク付けまたは評価した、人間によってラベル付けされた選好データを収集することから始まります。たとえば、OpenAI の初期の RLHF の実験では、注釈者が複数のモデル生成応答を同じプロンプトと比較し、どの応答がより役立つか、真実であるか、または倫理的ガイドラインに沿っているかをラベル付けするデータセットを使用しました。これらのデータセットには、政治やヘルスケアなどのデリケートなトピックにおける事実と偏った回答を区別するなど、慎重な取り扱いを要する例が含まれることがよくあります。

主な RLHF 方法

報酬モデルトレーニング：人間が好む出力を予測するために、人間の選好データに基づいて報酬モデルがトレーニングされます。このモデルは、強化学習中の人間の判断に代わるものとして機能します。たとえば、Alibaba Cloud の Qwen シリーズは、報酬モデルを使用して有害または安全でない出力にペナルティを課し、明快さと整合性に対して報酬を与えます。
近接方策最適化 (PPO)：PPO は、トレーニングされた報酬モデルからの報酬を最大化するように LLM のポリシー (出力生成) をファインチューニングする強化学習アルゴリズムです。この方法では安定した更新が保証され、望ましい動作からの劇的な逸脱を防止できます。たとえば、PPO は、Qwen のようなシステムでチャットボットの応答を反復的に絞り込むために使用されます。
インタラクティブフィードバックループ：リアルタイムの人間によるフィードバックがトレーニングパイプラインに統合されます。たとえば、Google Gemini などの AI アシスタントは、ベータバージョンをデプロイして、応答に対するユーザー評価 (たとえば、親指を立てる / 下げる) を収集し、RLHF パイプラインにフィードバックして将来の出力を改善することができます。
セーフティクリティカルフィルタリング：エラーが深刻な結果をもたらす可能性のある、医療アドバイスや法的な質問などの重要なシナリオに特化した特殊なデータセットです。これらのデータセットには、モデルが厳格なガイドラインに準拠するよう、精度と安全性について出力に注釈を付けるドメインエキスパートが含まれます。

RLHF データセットの課題

人間によるフィードバックのスケーラビリティ：質の高い選好データの収集は、労働集約的で費用がかかります。このプロセスをスケーリングする場合、バイアスを回避するために自動化 (たとえば、合成フィードバック) と人間の監視のバランスが必要です。
文化的および倫理的バイアス：選好データセットは、特定の地域 (西洋中心の視点など) からの注釈者の値が反映されることが多く、グローバルアプリケーションでは出力が偏るリスクがあります。

選好データセット、報酬モデリング、および反復的な人間のフィードバックを組み合わせることにより、RLHF では、LLM が一般的なテキスト生成器から、安全性、関連性、および人間との整合性を優先するシステムに進化することが保証されます。

データソーシングの課題

利用可能なデータの枯渇

今日最も差し迫った問題の 1 つは、すぐに利用できるテキストデータの枯渇です。伝えられるところによると、主要なテクノロジー企業は、海賊版の本、映画の字幕、個人的なメッセージ、ソーシャルメディアの投稿など、オープン Web とダーク Web からアクセス可能なほとんどすべてのテキストデータにインデックスを付けています。利用できる新しいソースが少ないため、業界はさらなる進歩のボトルネックに直面しています。

すべてのモダリティにわたる、各ソースカテゴリからのデータの累積量 (テキストの場合は対数スケール、音声 / ビデオの場合は時間) 。凡例のソースカテゴリは、数量の降順に並べられています。

文化的非対称性

ほとんどのデータセットはヨーロッパと北アメリカで作成されているため、西洋中心の世界観が反映されています。分析されたデータセットのうちアフリカからのものは 4% 未満で、重大な文化的不均衡が浮き彫りになっています。このバイアスにより、特に画像やビデオを生成するマルチモーダルモデルでステレオタイプが強化されたり、歪んだ認識につながったりする可能性があります。

中央集権化

影響力のあるデータセットの取得と管理は、大企業によって支配されています。 YouTube のようなプラットフォームは、AI トレーニングで使用されるビデオデータの 70% 以上を提供し、少数の企業の手に莫大な力が集中します。この集中化はイノベーションを妨げ、これらのリソースへのアクセスが不足している小規模なプレーヤーにとって障壁となります。

データセットの収集コレクション

下表に、テキストコレクションのソースを示します。プロパティには、データセット、タスク、言語、およびテキストドメインの数が含まれます。ソース列は、人間が生成した Web 上のテキスト、言語モデルの出力、またはその両方のコレクションのコンテンツを示します。最後の列は、コレクショのライセンスステータスを示しています。商用使用の場合は青、非商用および学術研究の場合は赤、ライセンスが不明な場合は黄色です。最後に、OAI 列は、OpenAI モデルの世代を含むコレクションを示します。データセットは、経時的な傾向を強調するために時系列にソートされています。出典はこちらです。

テキストデータのコレクション：

ビデオデータのコレクション：

オーディオデータのコレクション：

ソリューションと今後の方向性

未開発のデータソースの活用

簡単にアクセスできるデータが明らかに枯渇している一方で、未開発のソースが多数残っています。

保存資料のデータ：図書館、定期刊行物、および歴史的記録は、豊富で未踏のコンテンツです。
企業のデータ：企業は、機器のテレメトリ、気象レポート、システムログ、マーケティング統計など、未使用のデータを大量に保有しています。

高度な LLM は、これらの潜在的なデータセットを構造化して、将来のトレーニングに利用できます。

連合学習

連合学習を使用すると、安全な環境の外に転送することなく、機密データでモデルをトレーニングできます。この方法は、ヘルスケア、金融、電気通信などの機密情報を扱う業界に最適です。データの局所化を維持することにより、連合学習ではプライバシーが保証され、共同モデルの改善が可能になります。

合成データと拡張

合成データの生成とデータ拡張は、トレーニングデータセットを拡大するための有望な手段です。

合成データ：アルゴリズムによって生成された合成データは、実世界データのギャップを埋めることができますが、複合エラーを避けるために慎重に処理する必要があります。
データ拡張：画像の反転、色の変更、コントラストの調整などの手法で既存のデータを変更すると、多様性を増しながらリアリズムを維持できます。

結論

AI の分野が進化し続けるにつれて、データセットの役割は依然として非常に重要です。簡単に入手できるデータの枯渇は課題を提起しますが、AI の研究者および愛好家として、文化の非対称性と中央集権化の問題を認識し、責任を負うことが重要です。未開発のソース、連合学習、合成データ生成などの革新的なソリューションが、将来への道を示しています。これらの戦略を組み合わせることで、公平で多様な AI 開発を確保し、より洗練された、包括的な人工知能システムへの道を開くことができます。

この記事は英語から翻訳されました。元の記事はこちらからご覧いただけます。

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up