はじめに
今回は「[LLMのFinetuningのための基礎] transformersのTrainer APIの基本を理解する」と題しまして、transformersライブラリのTrainer APIに関して学習したことをまとめました。
AutoClasses(AutoConfig、AutoTokenizer、AutoModel)の基礎を理解した次のステップとして、実際にモデルをファインチューニングするために欠かせないTrainer APIについて学んでいきます。
Trainer APIを理解することで、事前学習済みモデルを自分のタスクに合わせてファインチューニングする基本的な流れを把握できるようになります。
LLM事前知識・datasetsの基本の理解・AutoTokenizer・AutoConfig・AutoModelの基本を理解するについては下記記事に記載されています。よろしければ是非一読お願いいたします。
おことわり
本記事はあくまでもLLM初学者である私の学習のアウトプットなので不正確・不十分な説明の可能性もあるため参考にされる場合は十分にご注意ください。
目次
- 1. Trainer APIとは
- 2. TrainingArgumentsとは
- 3. ファインチューニングに必要な要素
- 4. Trainerの基本的な使い方
- 5. 学習プロセスの制御
- 6. おわりに
1. Trainer APIとは
Trainer APIとは、Hugging Face transformersライブラリが提供する、深層学習モデルの学習を簡潔に行うための高レベルAPIです。
Trainer APIの主な特徴は以下の通りです:
- 学習ループの抽象化: 複雑な学習ループ(順伝播→損失計算→逆伝播→パラメータ更新)を自動化
- 分散学習の対応: マルチGPUや分散学習を簡単に実行可能
- 評価とロギング: 学習中の損失や評価指標の記録・可視化
- チェックポイント機能: 学習途中での保存・再開機能
- 豊富なコールバック: 学習プロセスのカスタマイズが可能
従来、PyTorchで深層学習を行う場合は学習ループを自分で実装する必要がありましたが、Trainer APIを使うことで、数行のコードで本格的なファインチューニングが実行できます。
ネイティブpytorchでの実装を見たことない方はZero to Masteryのチュートリアル記事などに目を通していただけると訓練のコードがどれだけ複雑なのかをご理解いただけると思います。
2. TrainingArgumentsとは
TrainingArgumentsは、Trainerクラスが学習を実行する際の設定を管理するクラスです。学習率、バッチサイズ、エポック数など、学習に関するあらゆるハイパーパラメータを指定できます。
主要なパラメータ
TrainingArgumentsで設定できる重要なパラメータには以下があります:
基本的な学習設定
-
learning_rate
: 学習率(デフォルト: 5e-5) -
num_train_epochs
: 学習エポック数 -
per_device_train_batch_size
: 1つのデバイスあたりの学習バッチサイズ -
per_device_eval_batch_size
: 1つのデバイスあたりの評価バッチサイズ
出力と保存
-
output_dir
: モデルやチェックポイントの保存先ディレクトリ -
save_steps
: 何ステップごとにチェックポイントを保存するか -
save_total_limit
: 保存するチェックポイントの最大数
評価設定
-
evaluation_strategy
: 評価を実行するタイミング("no", "steps", "epoch") -
eval_steps
: 何ステップごとに評価を実行するか -
load_best_model_at_end
: 学習終了時に最良のモデルをロードするか
ロギング
-
logging_dir
: ログの保存先ディレクトリ -
logging_steps
: 何ステップごとにログを出力するか -
report_to
: ログの出力先("tensorboard", "wandb"など) 何も指定したくない場合は文字列でnoneと入力してください。
3. ファインチューニングに必要な要素
Trainer APIを使ったファインチューニングには、以下の要素が必要です:
モデル(Model)
AutoModelForXXXクラスでロードした事前学習済みモデル。タスクに応じて適切なヘッドを持つモデルを選択します。
-
AutoModelForSequenceClassification
: 分類タスク -
AutoModelForQuestionAnswering
: 質問応答タスク -
AutoModelForTokenClassification
: トークン分類タスク
トークナイザー(Tokenizer)
AutoTokenizerでロードしたトークナイザー。テキストをモデルが理解できる形式に変換します。
データセット(Dataset)
学習・評価用のデータセット。datasetsライブラリのDatasetオブジェクトまたはPyTorchのDatasetクラスを使用します。
TrainingArguments
学習の設定を定義するオブジェクト。
データコレーター(Data Collator)
バッチ処理を行うためのオブジェクト。パディングや特殊な前処理を担当します。
4. Trainerの基本的な使い方
Trainerクラスの基本的な使用方法は以下の流れになります:
インスタンス化
Trainerクラスは、必要な要素を引数として受け取ってインスタンス化します:
trainer = Trainer(
model=model, # ファインチューニング対象のモデル
args=training_args, # TrainingArgumentsオブジェクト
train_dataset=train_dataset, # 学習用データセット
eval_dataset=eval_dataset, # 評価用データセット(オプション)
tokenizer=tokenizer, # トークナイザー
data_collator=data_collator, # データコレーター(オプション)
compute_metrics=compute_metrics # 評価指標計算関数(オプション)
)
学習の実行
train()
メソッドを呼び出すことで学習が開始されます:
trainer.train()
評価の実行
evaluate()
メソッドで評価を実行できます:
eval_results = trainer.evaluate()
モデルの保存
save_model()
メソッドでモデルを保存できます:
trainer.save_model("./fine-tuned-model")
5. 学習プロセスの制御
Trainer APIでは、学習プロセスを柔軟に制御できる仕組みが用意されています。
コールバック(Callbacks)
学習の特定のタイミングで実行される処理を定義できます。例えば:
-
EarlyStoppingCallback
: 早期停止 -
TensorBoardCallback
: TensorBoardでの可視化 -
WandbCallback
: Weights & Biasesでの実験管理
カスタム評価指標
compute_metrics
パラメータに関数を渡すことで、独自の評価指標を計算できます。この関数は予測結果と正解ラベルを受け取り、評価指標の辞書を返します。
学習の再開
resume_from_checkpoint
パラメータを使用することで、保存されたチェックポイントから学習を再開できます。これにより、長時間の学習でも安心して実行できます。
分散学習
Trainer APIは自動的にマルチGPU環境を検出し、分散学習を実行します。特別な設定なしに複数のGPUを活用できます。
6. ファインチューニングの典型的な流れ
Trainer APIを使った一般的なファインチューニングの流れは以下のようになります:
- データの準備: データセットの読み込みと前処理
- モデルとトークナイザーのロード: AutoClassesを使用
- TrainingArgumentsの設定: ハイパーパラメータの定義
- Trainerのインスタンス化: 必要な要素を組み合わせ
-
学習の実行:
trainer.train()
で学習開始 -
評価:
trainer.evaluate()
で性能評価 -
モデルの保存:
trainer.save_model()
で結果保存
この流れにより、事前学習済みモデルを自分のタスクに合わせて効率的にカスタマイズできます。
おわりに
今回はTransformers Trainer APIの基本について学習しました。
Trainer APIは、複雑な学習プロセスを抽象化し、数行のコードで本格的なファインチューニングを可能にする強力なツールです。AutoClasses(AutoConfig、AutoTokenizer、AutoModel)と組み合わせることで、事前学習済みモデルを活用した実践的な機械学習プロジェクトを効率的に進めることができます。
前回の記事から大分時間が空いてしまいましたが、私自身ドキュメントを読み込むことで多くの知見を得ることができました。
本記事が皆様に有意義なものであると幸いです。