1. 概要
この研究では、テキストから画像を生成する際のクオリティを人間のフィードバックを受けることによって向上させる方法を提案している。人間のフィードバックは、テキストからの画像生成モデルの性能向上に寄与することが知られているが、従来の手法では、まず人間が何を望んでいるかを抽出し表現するための報酬関数(reward function)を学習し、その報酬関数に基づいてモデルを改善させていた。しかし、単純に報酬のスコアに基づく棄却サンプリングなどのアプローチが適用されてきたが、生成モデルのファインチューニングには依然として課題が残っていた。
本論文では、オンライン強化学習(online reinforcement learning)を用いたテキストからの画像生成におけるモデルのファインチューニングを提案している。特に、拡散モデル(diffusion models)に着目しており、ファインチューニングのタスクを強化学習問題として定式化している。事前学習されたモデルをポリシー勾配法(policy gradient)を用いてフィードバックで学習した報酬を最大化することで更新している。
2. 新規性
- オンライン強化学習を用いてテキストから画像生成モデルをファインチューニングする方法を提案している。
- テキストから画像生成モデルのファインチューニングするタスクを、強化学習の問題として定式化している。
- ポリシー勾配法を用いた、人間のフィードバックに基づく報酬関数によるモデル更新手法を提案している。
3. 実現方法
提案手法は、DPOK(Diffusion POlicy KL regulation)と呼ばれ、ポリシー最適化とKL最適化を統合している。
- 事前学習されたテキストから画像生成を行うモデルを用いて、人間が望ましい画像生成を表現する報酬関数を学習する。
- テキストから画像生成モデルをファインチューニングを強化学習問題として定式化する。
- ポリシー勾配法を用いて、報酬関数を最大化することでモデルを更新する。
- KL正則化を組み込み、モデルの更新を安定させる。
4. 結果
強化学習によるファインチューニングと教師有りのファインチューニングについて、KL正則化の効果を分析している。実験では、提案手法が画像とテキストの一致度と画像品質の両方について、教師有りのファインチューニングよりも優れていることを示した。
Paper URL: https://openreview.net/forum?id=8OTPepXzeh¬eId=gDVthccGwl
last updates: Apr. 18 2024