今日はモデルのトレーニング結果を管理するツールwandbを共有したいと思います。
wandbは機械学習のトレーニング結果(パラメータや損失値、精度などの評価指標)を記録し、可視化するためのツールです。使いやすいので非常に人気です。(アカウントを登録すれば、import wandbですぐ使えます。)
使用例:
下記の図は、私が最近LLMをfinetuningした際のwandbログです。トレーニング中の損失(loss)やエポック(epoch)などが記録されてます。
トレーニング結果を複数個一緒に開いて比較することもできます。
lossとepoch以外には処理時間、参数(config)とか色々確認できます。
LLMのfinetuningでは基本的trainデータとtestデータに分けないので、wandbではlossと学習率くらいしか確認できないようですが、一般的な機械学習のトレーニングではさまざまな用途があります。例えば、過学習への対処として、trainデータとtestデータのlossを同時に観察して、trainのlossが下がっている一方で、testのlossが逆に上がる場合、過学習が起きてるのをすぐ確認できますので、学習を途中で止めることできます。
ちなみに、wandbは先週RAGの処理ログを記録する機能も追加したそうです。最近試してみたいと思います。
興味ある方: