最近、KaggleでLLMのRLHF(人間のフィードバックによる強化学習)に関する新しいコンペが開催されました。コンペ名は「LMSYS - Chatbot Arena Human Preference Predictions」です。
このコンペの目的は、異なるモデルが生成した回答のうち、どれが人間に好まれるやすいかを予測するモデルを作ることです。LLMのトレーニング中におけるRLHFの「報酬モデル」に近いイメージです。
コンペのデータは、LLMのベンチマークを行うサイト「Chatbot Arena」から提供されています。このサイトでは、ユーザーが質問すると、ランダムに選ばれた2つのLLMが同時に回答します。ユーザーはこの2つの回答を比較し、どちらがより優れているかを選びます。選ばれたモデルは加点する仕組みによって、LLMのランキングが作成されています。(もちろん自分でチューニングしたモデルをアップロードして他のモデルと競わせることもできます)
最終的な提出データは、ID、モデルAが勝つ確率、モデルBが勝つ確率、引き分けの確率の4列で構成されます。これら3つの確率の合計は1になり、実際の結果との対数損失で評価されます(なぜ対数損失取るかはよくわかりませんが、おそらく実際の結果に近いほど評価が高いと思います)。
コンペのルールはシンプルで、現在参加者のアプローチも大きく分けて二つです。一つは大規模言語モデル(LLM)を直接トレーニングする方法、もう一つはLightGBMなどの従来型の機械学習アルゴリズムを使用して予測モデルを構築する方法です。
私もこのコンペに最近参加したばかりで、まだ不明な点が多いのですが、RLHFには結構興味ありますので、このコンペを通じてRLHFについて詳しく学びたいと思います。