ただただアウトプットを癖付けるためのAdvent Calendar 2024

生物物理屋がファインチューニングに挑戦してみた話その２

Last updated at 2024-12-25Posted at 2024-12-17

はじめに

最初の記事にも書いた通り、私は生物物理の実験を専門にしている研究者です。
最近はデータ解析のため機械学習のコード開発も行っており、幸いにもその成果がNeurIPSに採択されました。

前回の記事から、LLMのファインチューニングに挑戦しています。
今回はその続きとして、自然言語処理の章から、類似文章検索のファインチューニングに関するレシピを体験してみることにしました。

githubにリポジトリがあります。

類似文章検索のファインチューニングに関するレシピを体験してみる

日本語BERTであるbert-base-japanese-v3を使って、テストデータでファインチューニングする

リポジトリのReadMeから、類似文章検索の学習用jupyter notebookのところにあるopen in colabをクリックして、Colabで開きました。
セッションをGPU使用に変更し、セルを実行していきます。

途中でweight & biasesのアカウントを作成し、APIキーを取得して、セルに入力しました。

その後はすんなりと回りました。

モデルはColabのストレージに保存されます。

さらに、評価用jupyter notebookからセルをコピーして、継続して走らせました。
類似度スコアの予測ができていることが確認できました。

追加で、ファインチューニング前のモデルでも評価をおこなってみました。
類似度スコアは算出されたものの、ほとんど定数（１）であり、まったく予測ができていないことがわかりました。