はじめに
以前の記事で、Llama 2をFinetuningする手順@Colabについて見ました。
Llama 2は英語だけではなく日本語にも対応はしてますが、トレーニングデータの割合としては全体の0.1%のみ。約90%は英語です。
Llama 2を触っていると日本語対応をもっと強化したい!と思うはず。
それ以外にも、特定のナレッジやドメイン知識でトレーニングしたいと思うこともしばしば。なはず。
ということで、今回はLlama 2をFinetuningするためのDatasetsの探し方です。
※独自にDatasetsを作る方法はまた別の記事にて!
概要
- Llama 2をFinetuningするDatasetsをHugging Faceで探す
- Finetuningの手順はこちらにまとめてます
手順
1.Hugging Faceのアカウントを作成する ※スキップ可
今回はHugging FaceでDatasetsを探していくので、最初にアカウントを作っておく。
Datasetを探すだけならアカウントはなくてもいいですが、あった方が断然便利。
2.Datasetsを探す
Hugging Faceのページから、Datasets
メニューを開いて任意のワードでDatasetsを検索してみる。
今回は検索欄にllama
と入力して、Llamaに対応したDatasetsを検索してみました。
いろいろなDatasetsが公開されているので、Datasetsを探すだけでも結構楽しいですよ!
3.Finetuningする
2で選んだDatasetsを使って、Finetuningをする。
手順はこちらの記事をご参照ください
dataset_name
に、選んだDatasetsを指定すればOK
# The instruction dataset to use
dataset_name = ""
一つだけ注意点が。
DatasetのField定義が合っていないとエラーで先に進めないので一応確認しておきます。
下のdataset_text_field
のところ。
# Set supervised fine-tuning parameters
trainer = SFTTrainer(
model=model,
train_dataset=dataset,
peft_config=peft_config,
dataset_text_field="text",
max_seq_length=max_seq_length,
tokenizer=tokenizer,
args=training_arguments,
packing=packing,
)
あとは普通にFinetuningできます。
まとめ
Hugging FaceでLlama 2向けのDatasetsを探してみました。
Datasetsを選んでFinetuningしたものの、思いのほかうまくいかないこともあります。
というか、自分はそうでした。
となると、、
自分でDatasetsを作りたくなりますよね!
次回の記事では、Llama 2向けのDatasetsを作ってみたいと思います。