3
1

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?

記事投稿キャンペーン 「2024年!初アウトプットをしよう」

Llama 2をFinetuningするDatasetsの探し方@Hugging Face

Last updated at Posted at 2024-01-08

はじめに

以前の記事で、Llama 2をFinetuningする手順@Colabについて見ました。

Llama 2は英語だけではなく日本語にも対応はしてますが、トレーニングデータの割合としては全体の0.1%のみ。約90%は英語です。

Llama 2を触っていると日本語対応をもっと強化したい!と思うはず。
それ以外にも、特定のナレッジやドメイン知識でトレーニングしたいと思うこともしばしば。なはず。

ということで、今回はLlama 2をFinetuningするためのDatasetsの探し方です。

※独自にDatasetsを作る方法はまた別の記事にて!

概要

  • Llama 2をFinetuningするDatasetsをHugging Faceで探す
  • Finetuningの手順はこちらにまとめてます

手順

1.Hugging Faceのアカウントを作成する ※スキップ可

今回はHugging FaceでDatasetsを探していくので、最初にアカウントを作っておく。

Datasetを探すだけならアカウントはなくてもいいですが、あった方が断然便利。

2.Datasetsを探す

Hugging Faceのページから、Datasetsメニューを開いて任意のワードでDatasetsを検索してみる。
今回は検索欄にllamaと入力して、Llamaに対応したDatasetsを検索してみました。

Untitled.png

いろいろなDatasetsが公開されているので、Datasetsを探すだけでも結構楽しいですよ!

3.Finetuningする

2で選んだDatasetsを使って、Finetuningをする。

手順はこちらの記事をご参照ください

dataset_nameに、選んだDatasetsを指定すればOK

# The instruction dataset to use
dataset_name = ""

一つだけ注意点が。

DatasetのField定義が合っていないとエラーで先に進めないので一応確認しておきます。
下のdataset_text_fieldのところ。

# Set supervised fine-tuning parameters
trainer = SFTTrainer(
    model=model,
    train_dataset=dataset,
    peft_config=peft_config,
    dataset_text_field="text",
    max_seq_length=max_seq_length,
    tokenizer=tokenizer,
    args=training_arguments,
    packing=packing,
)

あとは普通にFinetuningできます。

まとめ

Hugging FaceでLlama 2向けのDatasetsを探してみました。

Datasetsを選んでFinetuningしたものの、思いのほかうまくいかないこともあります。
というか、自分はそうでした。

となると、、

自分でDatasetsを作りたくなりますよね!
次回の記事では、Llama 2向けのDatasetsを作ってみたいと思います。

3
1
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
3
1

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?