0
0

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?

生物物理屋がファインチューニングに挑戦してみた話その3

Last updated at Posted at 2024-12-18

はじめに

この記事は「ただただアウトプットを癖付けるための Advent Calendar 2024」に投稿した記事です。

最初の記事にも書いた通り、私は生物物理の実験を専門にしている研究者です。
最近はデータ解析のため機械学習のコード開発も行っており、幸いにもその成果がNeurIPSに採択されました

前々回の記事から、LLMのファインチューニングに挑戦しています。
今回はその続きとして、強化学習のレシピを体験してみることにしました。
これは、RLHF(Reinforcement Learning from Human Feedback)という手法を使って、エージェントを学習させるものです。

関連記事

前の記事 「生物物理屋がファインチューニングに挑戦してみた話その2

次の記事「【生物物理屋による論文紹介】グラフニューラルネットワークによる多変数パーシステントホモロジーの解析

参考書

今日から使えるファインチューニングレシピ AI・機械学習の技術と実用をつなぐ基本テクニック

githubにリポジトリがあります。

今回の目標

RLHFに関するレシピを体験してみる

タスク

japanese-large-llm-1.7bをファインチューニングし、ポジティブな文を生成する

やったこと

リポジトリのReadMeから、類似文章検索の学習用jupyter notebookのところにあるopen in colabをクリックして、Colabで開きました。
セッションをGPU使用に変更し、セルを実行していきます。

残念ながらimportでエラーが出てしまいました。
peftのLoraConfigのインポート時にtransformers.Cacheをインポートしようとしているのですが、見つからないと言われてしまいました。

pip install するtransformersのバージョンを最新の4.47.1に変更したところ、peftのインポートエラーは解消しました。
しかしながら、trlのインポートでエラーが出てしまいました。
機械学習用のライブラリは変遷が早いのか、なかなかにバージョンがシビアですね。

0
0
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
0
0

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?