More than 1 year has passed since last update.

Elasticsearchに日本語のNLPモデルをアップロードする

Last updated at 2023-11-04Posted at 2023-04-19

Elastic + eland v8.7.0 での日本語モデルアップロードの問題

ElasticではHugging Faceで公開されているNLPモデルをElasticsearchにアップロードして、Ingestion Pipelineなどでテキストの加工・分析等に利用することができます。この時に利用するのがPythonで実装されたelandおよびそれにバンドルされるコマンドラインツールeland_import_hub_modelです。

Elastic Stack v8.7.0のリリースに合わせてelandもv8.7.0がリリースされたので東北大学が公開しているcl-tohoku/bert-base-japanese-v2を使って試してみました。コマンドは以下のような感じ。Colabを利用しています。

!eland_import_hub_model \
--url https://user:password@myess:9243 \
--hub-model-id cl-tohoku/bert-base-japanese-v2 \
--task-type text_embedding \
--start

しかし、（実際にいつから発生している問題かはわかりませんが）以下の様なエラーが発生しました。

TypeError: Tokenizer type BertJapaneseTokenizer(name_or_path='cl-tohoku/bert-base-japanese-v2', vocab_size=32768, model_max_length=1000000000000000019884624838656, is_fast=False, padding_side='right', truncation_side='right', special_tokens={'unk_token': '[UNK]', 'sep_token': '[SEP]', 'pad_token': '[PAD]', 'cls_token': '[CLS]', 'mask_token': '[MASK]'}, clean_up_tokenization_spaces=True) not supported, must be one of: <class 'transformers.models.bart.tokenization_bart.BartTokenizer'>, <class 'transformers.models.bert.tokenization_bert.BertTokenizer'>, <class 'transformers.models.distilbert.tokenization_distilbert.DistilBertTokenizer'>, <class 'transformers.models.dpr.tokenization_dpr.DPRContextEncoderTokenizer'>, <class 'transformers.models.dpr.tokenization_dpr.DPRQuestionEncoderTokenizer'>, <class 'transformers.models.electra.tokenization_electra.ElectraTokenizer'>, <class 'transformers.models.mobilebert.tokenization_mobilebert.MobileBertTokenizer'>, <class 'transformers.models.mpnet.tokenization_mpnet.MPNetTokenizer'>, <class 'transformers.models.retribert.tokenization_retribert.RetriBertTokenizer'>, <class 'transformers.models.roberta.tokenization_roberta.RobertaTokenizer'>, <class 'transformers.models.squeezebert.tokenization_squeezebert.SqueezeBertTokenizer'>

BertJapaneseTokenizerがサポートされていないと言っています。私の記憶では以前（モデルは違ったと思いますが）同様にBertJapaneseTokenizerを利用しているモデルを問題なくアップロードできていたので、何らかのバリデーションが追加されたのかもしれません。

対応方法

このままだとモデルのアップロードの時点でつまずくので、とりあえずelandからのアップロードだけでも通るようにパッチを書いてプルリクを投げました。

Add BertJapaneseTokenizer support

少なくとも記事執筆時点では取り込まれていないので、もしも最新版のelandからBertJapaneseTokenizerを使ったモデルをアップロードしたい場合は、以下のように私のリポジトリからelandを取得してインストールしてください。

git clone -b add_BertJapaneseTokenizer_support https://github.com/daixque/eland.git
cd eland
pip install .

pip installしないで直接実行する方法については別記事を書きました。

現在の日本語対応状況

プルリクの中でも記載しているのですが、この対応をしたとしても今時点で以下の様な状況になっています。

学習時にはBertJapaneseTokenizerを使ってトークナイズしており、pre-tokenizeにはMeCabによる形態素解析を利用している
Elasticsearch側ではBertJapaneseTokenizerに対応する（Bertの）Tokenizerは現状実装されておらず、pre-tokenizeはWhitespaceTokenizerが利用されている

学習と利用でトークナイズ方式が異なるため、Elasticsearchで利用する際にBertが利用しているボキャブラリとマッチしない問題が起きます。この辺りの事については @ijokarumawak@github さんのこちらの記事でもう少し詳しく説明されています。

今後、ElasticのNLP周りでも日本語対応が充実するように貢献できればと思っています。

2023/11/04 追記

その後Elasticsearch側のトークナイズ処理も含めて修正するプルリクを送って、Elasticsearch 8.9で取り込まれました。以下参考にして下さい。

Elastic公式ブログ

ウェビナー

Qiita

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up