LoginSignup
1
0

More than 1 year has passed since last update.

日本語GPT-2で 'Tokenizer class T5Tokenizer does not exist or is not currently' と怒られた

Last updated at Posted at 2022-03-27

日本語GPT-2をfine-tuningしようとしたら怒られたので、メモ。

環境

GCPのCompute Engineで、Deep Learning on Linuxイメージを使いました。

構成
Python3.8
Transformers==4.18.0.dev0
PyTroch==1.11.0+cu113
datasets==2.0.0

OS: Debian
GPU: Tesla K80
CUDA: 11.4

起こったこと

rinna/japanese-gpt2-smallを自前のデータでfine-tuningしようと、run_clm.pyを走らせたところ、以下の様に怒られました。

run_clm.py
ValueError: Tokenizer class T5Tokenizer does not exist or is not currently imported.

んなこと言われても...と思い、色々やりました。

解決

sentencepieceを入れたら解決しました。

Bash
pip install setencepiece

ちゃんと依存関係調べてからやろうねっていう教訓でした。
確認不足で時間食ってしまった....

まとめ

つまり、以下が必要っぽいです。

Bash
pip install git+https://github.com/huggingface/transformers.git
pip install datasets
pip install sklearn
pip install sentencepiece
pip install torch                   #GPU環境では公式ドキュメント要確認
1
0
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
1
0