chiVeの活用方法シリーズ
- Part 1 「分散表現とは?chiVeとは?」(本記事)
- Part 2 「chiVeでできること(単語ベクトルの性質)」
- Part 3 「chiVeでできること(単語ベクトルで文書分類)」
- Part 4 「chiVeの追加学習」
はじめに
2022年4月末に、WAP NLP Tech Talk#5 にて、「単語分散表現 chiVeの活用方法」というタイトルでお話しをしました。
本記事は、この内容のQiita版です。スライドの内容を、補足しながら4回に分けて紹介します。
chiVe(チャイブ)とは、日本語単語分散表現です。
この記事では、chiVeの使い方について説明します。
chiVeの研究的な側面は、WAP NLP Tech Talk #1 でも紹介しています。
分散表現とは?chiVeとは?
単語分散表現とは、単語を数値列(ベクトル)に変換したものでした。(過去の記事も参考にしてください)
一言で言うと、単語分散表現は、学習コーパスを使い周辺の単語からベクトルを推定して作ります。
良質な分散表現を得るためには、学習コーパスの適切な選択が重要です。
コーパスの量が少ないと、得られる周辺の単語が少なくなってしまいます。
また、コーパスのドメイン(分野)も考慮しなくてはいけません。例えば、学習コーパスとして新聞記事を使った場合、政治用語の分散表現は良質かもしれませんが、ビジネス文書の用語は上手く扱えないかもしれません。
日本語分散表現としては、nwjc2vec、hottoSNS-w2v、朝日新聞単語ベクトル、HR領域向け単語ベクトル、Wikipedia2Vec など様々なものがありますが、学習コーパスのドメインに偏りが無くかつ商用利用可能な分散表現は少ないことが分かります。
chiVeの特長
chiVeの特長は主に次の3点です。
- 日本語形態素解析器 Sudachi により、chiVeは複数粒度の単語分割や表記正規化による表記ゆれの吸収ができています。
- 日本語大規模コーパス NWJC により、chiVeは大規模な語彙数と高い品質を確保できています。
- chiVeは、商用利用可能なライセンス Apache 2.0 のもと GitHub で公開されています。
どの chiVe を使えばよいのか?
chiVeは、いくつかのサイズが公開されています。どれを使えば良いでしょうか?
①語彙数 と ②計算リソース を見て決めてください。
語彙数 | gensim版 | Magnitude版 | |
---|---|---|---|
v1.2 mc5 | 3,197,456 | 3.8 GB | 5.5 GB |
v1.2 mc15 | 1,454,280 | 1.7 GB | 2.4 GB |
v1.2 mc30 | 912,550 | 1.1 GB | 1.5 GB |
v1.2 mc90 | 482,223 | 0.6 GB | 0.8 GB |
①語彙数:語彙数によって扱える単語が違う
chiVeは、サイズが大きいほど、あまり使われない単語も収録されるようになっています。
各版に登録されている単語の一例を図に表しました。
例えば、「水先法」は最もサイズが大きな v1.2 mc5
のみに登録されています。
水先法
水先法(みずさきほう、昭和24年5月30日法律第121号)は、水先をすることができる者の資格を定め、及び水先業務の適正かつ円滑な遂行を確保することにより、船舶交通の安全を図り、あわせて船舶の運航能率の増進に資することを目的とする日本の法律。
https://ja.wikipedia.org/wiki/%E6%B0%B4%E5%85%88%E6%B3%95
続いて、
-
v1.2 mc15
には「労働者派遣事業の適正な運営の確保及び派遣労働者の保護等に関する法律」(※「労働者派遣法」の正式名称) -
v1.2 mc30
には「雇用の分野における男女の均等な機会及び待遇の確保等に関する法律」(※「男女雇用機会均等法」の正式名称) -
v1.2 mc5
には「男女雇用機会均等法」や「労働者派遣法」
が登録されています。
このように、よく使われる単語は小さいサイズのchiVeでも収録されていますが、正式な法律名などを一単語として扱いたい場合には、大きなサイズの版を使います。
chiVeに収録されている単語の粒度(長さ)は、Sudachi の分割粒度に依存しています。
Sudachi による分割粒度の違いの例
- C単位:雇用の分野における男女の均等な機会及び待遇の確保等に関する法律
- A単位:雇用/の/分野/に/おけ/る/男女/の/均等/な/機会/及び/待遇/の/確保/等/に/関する/法律
②計算リソース:大きいモデルは重い
大きいサイズであるほど、chiVeを置いておく保存領域が必要になったり、ロードにかかる時間が長くなったりします。
mc (Min Count) とは
chiVeの版の名前に登場する mc (Min Count) とは、「学習コーパス中の最低出現頻度」のことを指しています。
例えば「mc5」とは、学習コーパスで5回以上出現した単語だけを収録しているという意味です。
mcが小さいほど、語彙数が大きくなります。
注意点
出現頻度が低い単語は、良質なベクトルを作りにくいです。
これは、chiVeに限った話ではなく、単語分散表現の原理上の課題です。
主な理由は、少ない学習データでは上手く学習できない場合があるからです。
記事冒頭でも触れたように、単語分散表現は、学習コーパスを使い周辺の単語からベクトルを推定して作ります。出現頻度が低い単語は、学習コーパスでの出現回数が少ない分、得られる周辺単語も少なくなってしまいます。
専門用語(一般の文書には現れないが、特定の文書でよく現れる単語)が多く出てくる文書でchiVeを使いたい場合には、専門用語を一単語として扱うためだけに、mcをむやみに下げるのはあまりお勧めしません。
専門用語は、ドメイン適応と呼ばれる追加学習を行うと良いです(次回以降の記事)