はじめに
この記事は「ただただアウトプットを癖付けるための Advent Calendar 2024」に投稿した記事です。
最初の記事にも書いた通り、私は生物物理の実験を専門にしている研究者です。
最近はデータ解析のため機械学習のコード開発も行っており、幸いにもその成果がNeurIPSに採択されました。
前々回の記事から、LLMのファインチューニングに挑戦しています。
今回はその続きとして、強化学習のレシピを体験してみることにしました。
これは、RLHF(Reinforcement Learning from Human Feedback)という手法を使って、エージェントを学習させるものです。
関連記事
前の記事 「生物物理屋がファインチューニングに挑戦してみた話その2」
次の記事「【生物物理屋による論文紹介】グラフニューラルネットワークによる多変数パーシステントホモロジーの解析」
参考書
今日から使えるファインチューニングレシピ AI・機械学習の技術と実用をつなぐ基本テクニック
githubにリポジトリがあります。
今回の目標
RLHFに関するレシピを体験してみる
タスク
japanese-large-llm-1.7bをファインチューニングし、ポジティブな文を生成する
やったこと
リポジトリのReadMeから、類似文章検索の学習用jupyter notebookのところにあるopen in colabをクリックして、Colabで開きました。
セッションをGPU使用に変更し、セルを実行していきます。
残念ながらimportでエラーが出てしまいました。
peftのLoraConfigのインポート時にtransformers.Cacheをインポートしようとしているのですが、見つからないと言われてしまいました。
pip install するtransformersのバージョンを最新の4.47.1に変更したところ、peftのインポートエラーは解消しました。
しかしながら、trlのインポートでエラーが出てしまいました。
機械学習用のライブラリは変遷が早いのか、なかなかにバージョンがシビアですね。