More than 3 years have passed since last update.

huggingface/transformers覚書

Last updated at 2021-12-01Posted at 2021-11-21

huggingface/transformersに関してつまづいた点をまとめた自分用のメモです。
大体は公式ドキュメントや公式フォーラムで解決することが多いです。

TensorFlowで学習したモデルをpytorch形式にして読み込みたい

参考記事：公式ドキュメント
transformers-cli convertで一発。

参考記事：公式ドキュメント
EarlyStopping以外のCallbackも実装されている。

参考記事：BertJapaneseTokenizerで辞書を指定・変更する
tokenizer_config.jsonに下記を加えれば良い。

"mecab_kwargs":{
    "mecab_dic": null,
    "mecab_option": "-d 使用したい辞書のpath"
}

mecab_dicはnullにしておくこと。
現在のバージョンでは、デフォルト値の場合mecab_dic+mecab_optionで設定を読み込んでしまう。
MeCab本体のインストールやmecabrcの保存場所に注意。

preprocessやpostprocessなどのパラメータは、Pipelineの__init__や__call__時に引数として渡すことで設定可能

classifier = TextClassificationPipeline(model=model, tokenizer=tokenizer, device=device, truncation=True, max_length=512)

そもそもTokenizerの__init__時にmodel_max_lengthで設定できるっぽいが、truncationなどの設定の仕方がわからない。

自作記事：huggingface/transformersでpipelineの出力にtokenized textとattention weightを加える
既存のPipelineを継承し、forwardとpostprocessに変更を加えた自作Pipelineを作成する。詳細は上記記事を参照。