KTOとは?:(Kahneman-Tversky Optimization )
この図は、言語モデルのアライメント手法に関する説明を示しています。
従来的なプロセスは、教師ありファインチューニングから始まり、続いてRLHF (Reinforcement Learning from Human Feedback) やDPO (Direct Preference Optimization) といった手法を使用して、モデルをペアリングされた嗜好データにフィットさせます。これらのアプローチが必要とするペアリングされた嗜好データは取得が難しいとされています。(図左)
新しい手法であるKTO (Kahneman-Tversky Optimization) は、入力に対する出力が望ましいか否かの情報のみを必要とするため、現実世界でより豊富で、安価で、迅速に収集可能なデータソースを活用できます。
KTOとは?
KTO(Kahneman-Tversky Optimization)は、人間のユーティリティモデルを基に開発された新しい最適化手法で、現実世界の不確実な金銭的結果についての人間の意思決定を説明することに焦点を当てています。このアプローチは、既存の手法が好みの対数尤度を最大化するのに対し、生成物のユーティリティ自体を直接最大化することを目指しています。
もうちょい解説
既存の手法、特にDPO(Direct Preference Optimization)などでは、モデルが学習する際に、特定の入力に対する好みのペア(好ましい出力と好ましくない出力のペア)から対数尤度を最大化することを目指します。つまり、モデルは人間の評価者が提供する具体的な「好み」に基づいて調整され、その好みに最も適合する出力を生成するように学習します。
一方で、KTO(Kahneman-Tversky Optimization)は、好みのペアに基づく学習ではなく、生成物自体のユーティリティ、つまりその生成物がどれだけ有用か、望ましいかを直接最大化することを目指します。これは、心理学者カーネマンとトヴェルスキーが提唱したユーティリティ理論に基づいています。彼らの理論は、人間が不確実性のある状況でどのように価値判断を下すかを数学的にモデル化したものです。
具体的には、KTOでは各出力が単に「望ましい」または「望ましくない」という二値のフィードバックに基づいて最適化されます。この方法により、モデルは複雑な好みの構造を解析する代わりに、より広範なデータから直接、実用的な生成物をより効率的に学習することができます。これによって、モデルは現実世界のアプリケーションで実際に役立つ出力をより確実に生成することが可能になります。
KTOのメリット
データが集めやすい
KTOでは、望ましいか望ましくないかの二値信号のみを必要とし、このデータは収集が容易でコストも低く、現実の世界で迅速に収集可能です。これにより、プロダクション環境でのアライメントのスケーリングが容易になり、モデルの迅速な反復が可能になります。
性能が出やすい
実験結果によると、KTOはDPOの性能に匹敵し、あるいはそれを超える結果を1Bから30Bパラメータのスケールで示しています。KTOは、優れた生成例を90%少なく使用しながらもDPOの性能に匹敵することができ、この成功は嗜好データセットからのアライメントデータに依存していないことが示されています。
さらに、事前学習されたモデルが十分に良い場合、監督付きファインチューニングを省略して直接KTOに進むことができ、生成品質の低下が見られません。これに対し、監督付きファインチューニングを行わないDPOアラインメントモデルは、全スケールで性能が大幅に劣ることが分かりました。
KTOが比較的弱い信号から学習しているにもかかわらず、DPOと同等またはそれ以上の性能を発揮することは驚きであり、この現象についての理論的な説明も提供されています。これらの結果は、KTOが特にデータの不均衡が激しい場合や迅速なモデル反復が求められる状況で特に有効であることを示しています。