Bedrockのモデルのカスタマイズ
モデルは公開されている一般的なデータでトレーニングされているため、もちろん企業や特定プロジェクトに関するデータでのトレーニングはされていません。
そのため、モデルの自社のユースケースに合わせた トレーニングデータのカスタマイズ することができます。
Bedrockでは、モデルをカスタマイズするために
- ファインチューニング
- 継続的事前トレーニング
の2つの方法が提供されています。
ファインチューニング
『ラベル付きデータを使用して、基礎モデルを特定のタスクに特化させる方法』
例えば、要約など特定のタスクにモデルを最適化したい場合に適しています。
特徴
- 既にトレーニングされたモデルを、特定のユースケース・タスクや目的に合わせて最適化するために行います。
- 元々汎用的な基盤モデルに対して追加学習を行うことで、例えば、特定の業界や用途に適した結果を提供するために非常に有効です。
- このプロセスにより、モデルは新しいデータパターンを学習し、特定のニーズに応じたカスタマイズが可能になります
- ファインチューニングは、既存のモデルを一からトレーニングするよりも効率的で、短期間で高い成果を得ることができます。
ファインチューニングにおける重要な要素
Bedrockを使ってトレーニングデータをカスタマイズして基盤モデルを再トレーニングする場合、トレーニングデータの品質が生成結果に直接影響します。
- トレーニングデータの品質
- 関連性
モニタリング
モデルが特定のタスクに適切に適応しているかを確認するために、特に優先してモニタリングすべきメトリックは、
- モデルの精度
です。
継続的事前トレーニング
『ラベルなしデータを使用して、モデルをドメインに慣れさせるための方法』
特定のタスクに依存しません。
特徴
- AIモデルがトレーニングされたデータセットに最新のデータを定期的に追加し、それを基に再トレーニングすることでモデルの性能を維持し、改善する仕組みです。
- これにより、モデルは新しいトレンドやデータの変化に対応でき、最新の情報に基づいた予測や結果を提供することができます。
- 継続的にモデルをアップデートすることで、データドリフトなどによるパフォーマンス低下を防ぎ、信頼性の高い結果を維持します。
ラベルがないデータの形式
継続的な事前トレーニングには、ラベル付けされていないデータを利用します。
次のような、ラベルがないデータの形式を利用します。
{"input": "<input text>"}
Bedrock の公式ドキュメントでは、継続的なトレーニングを通じて、モデルがより適応性の高いものになり、長期的な運用に適したモデルが提供できることが説明されています。