ChatGPTAdvent Calendar 2024

「Reinforcement Fine-Tuning」って何者？新登場のカスタマイズ手法が面白すぎる

ChatGPT

Posted at 2024-12-22

OpenAIが公開している「12 Days of OpenAI」シリーズ、Day 2 の動画がまたしても興味深かったので、ご紹介します。
今回のテーマは“Reinforcement Fine-Tuning（RFT）”。従来の “教科書的な学習”（いわゆる教師ありの Fine-Tuning）とは違い、強化学習の手法を使ったモデルの“カスタマイズ”が実現するそうです。

この記事はChatGPT Advent Calendar 2024の7日目です（空いていたので書いてみました）今年は「12 Days of OpenAI」ということで平日毎日発表がありましたが、その内容を復習しながらまとめます

ざっくり言うと「独自の PhD レベル思考」を作れるかも？

動画の冒頭で、OpenAIリサーチを率いる Markさんが話していたのは、「o1 というモデルをユーザー自身のデータセットでFine-Tuneできる機能をプレビュー中」ということ。
ただし、普通の SFT（Supervised Fine-Tuning）じゃなくて “Reinforcement Fine-Tuning” という、OpenAIがこれまで大規模モデルの高性能化に使ってきた技術を外部にも開放するよ、というのがポイントです。
現状はアルファプログラム（先行利用プログラム）で一部の大学・企業向けに提供しており、来年には一般公開を予定しているとのこと。

従来の Fine-Tuning との違い

教師あり学習 (SFT)
トーンや文体などを“模倣”させるのが得意。答えのパターンを覚えさせるイメージ。
強化学習 (RFT)
「どうやって答えを導いたか」を学習させる。正解にたどり着く推論プロセスそのものを強化することで、まったく新しい領域でもきちんと推論できるようになる。

個人的には、従来の Fine-Tuning は「データセットを真似る」感が強かったのに対して、RFT は「推論の方針自体を学習してしまう」ところが面白いと思いました。

実例：希少疾患の遺伝子特定を高度にサポート

動画の後半では、バークレーの研究者 Justin さんが登場して、「希少疾患の遺伝的要因を探る」プロジェクトでの事例を紹介していました。
希少疾患といっても全体で見ると結構な人数（3億人規模！）が該当するらしく、適切な診断がつくまでに長い時間がかかるのが問題だそうです。

タスク: 症状のリスト（患者情報）から「どの遺伝子に変異があると考えられるか」を推定する。
データ: ドイツの研究機関などと共同で、過去の症例レポートをまとめた1,100件ほどの学習用データを用意。
モデル: 「o1 mini」という軽量版モデルをスタート地点に設定し、そこから RFT で強化学習させる。

Grader（採点者）で報酬を与える仕組み

RFTを支えるキモが、「Grader（採点者）」と呼ばれる機能。
モデルが出した答え（推定した遺伝子のリスト）と、実際の正解を比較して「どのぐらい正解に近いか（0〜1のスコア）」を返す仕組みです。
スコアが高いほど良い推論の手順を強化し、低い場合は罰則を与えるように学習を進める。まさに強化学習らしいやり方ですね。

その結果、

学習前の「o1 mini」は正解遺伝子を1位に挙げられる確率が約 17.7%
「o1」（上位モデル）は 25%
そして RFT で鍛えた o1 mini はなんと 31% に向上

と、小さなモデルでも、上位モデルを超える性能が実現できたというお話でした。これは驚き。

RFT の魅力と今後の展開

今回の例は「希少疾患×遺伝子」みたいな先端医療分野でしたが、OpenAI のメンバー曰く、他にも AI セーフティ、リーガル、バイオケミカル などの分野でも有望だそうです。
要するに、どうしても高度な専門家の推論が必要なドメインにおいて、RFT は結構強力な武器になる可能性を秘めているんですね。

例：リーガル領域

動画では Thomson Reuters と組んで、o1 mini を法務アシスタント（co-counsel AI）向けに最適化している例も紹介。法律文書を読むには専門知識が必要なので、こういった領域では RFT の「解き方を学ぶ」手法がハマるのだろうと思います。

今はアルファプログラム参加者のみ

一般ユーザーがすぐにこの RFT 機能を使えるわけではなく、動画内でも「大学や企業など、一定の要件を満たす方は応募してね」とのこと。来年（2024年）の早い段階で正式公開を目指すようなので、興味のある方は今後のアナウンスを待つと良さそうです。
参考: Reinforcement Fine-Tuning—12 Days of OpenAI: Day 2

全体的な感想としては、 「理系の重厚な分野においてもAIでこんなに伸びしろがあるんだ」 というのを再確認した回でした。大規模言語モデルの潜在能力を “ちょっとしたデータセット” + “グレーダー” + “強化学習” で引き出せるなら、次世代のアシスタントは一気に専門家レベルに近づいてしまうかもしれません。来年の正式リリースが待ち遠しいですね。

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up