2
1

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?

More than 1 year has passed since last update.

Word2Vec、FastTextの比較(演算編)

Last updated at Posted at 2022-03-25

はじめに

前回の記事、Word2Vec、FastTextの比較(類義語編)に続き、今度は演算での比較を行いました。

単語同士の演算機能について

Word2Vec、FastTextは単語同士で演算ができます。
有名な例として 女王 があります。
w2v_003.png
のベクトル演算をすると、 [0.4, 0.2][0.1, 0.2][0.2, 0.5][0.5, 0.5] になります。これは 女王: [0.5, 0.5] に一致します。
図1のように単語間の“王族”という概念差と“女性”という概念差がWikipediaの学習により獲得できているため、演算が可能となります。
単語ベクトルの加減算は、gensimライブラリーのmost_similar関数で行うことができます。
の演算結果を得るには most_similar(positive=["王", "女"], negative=["男"]) のように使います。

演算 結果の考察

Word2Vec FastText
単語 類似度 単語 類似度
皇帝 0.70 太子 0.74
聖王 0.70 0.69
太子 0.70 聖王 0.68
女王 0.64 女王 0.65

の演算をWord2Vec、FastTextのそれぞれのモデルで試してみました。
演算結果のベクトルに近い単語を、類似度の高い順に並べています。

前述したように期待する結果は 女王 です。Word2Vec、FastTextとも 女王 は1位にはなりませんでしたが、登録語約24万語のうち、4番目に出現していますので、ほぼ期待どおりと考えます。また、上位4個のうち3個が同じ単語であり、類似度もほぼ同じ値になっているので、Word2VecとFastTextに大きな差異はないと考えます。

演算 パリフランス日本 結果の考察

Word2Vec FastText
単語 類似度 単語 類似度
東京 0.73 日本橋女学館 0.72
横浜 0.59 東京 0.71
大阪 0.58 日本 0.67

パリフランス日本 の演算をWord2Vec、FastTextのそれぞれのモデルで試してみました。
演算結果のベクトルに近い単語を、類似度の高い順に並べています。
期待する結果は 東京 です。東京は、Word2Vecは1番目、FastTextは2番目に出現していますので、ほぼ期待どおりと考えます。類似度もほぼ同じ値になっているので、Word2VecとFastTextに大きな差異はないと考えます。
FastTextは、positiveに指定した 日本 を部分単語に含む 日本橋女学館 日本食 といった単語が類似度の上位に入りました。これは類義語編でも見られた傾向です。

Word2Vec:登録単語と演算の比較 東京大学東京大学

東京大学の類義語と、演算 東京大学 の類義語の違いを確認しました。
この章はWord2VecとFastTextの比較ではなく、Word2Vec単独での確認内容です。
gensimライブラリーで結果を得るには、以下のようにmost_similar関数に入力します。

  • 東京大学most_similar(positive=["東京大学"])
  • 東京大学most_similar(positive=["東京", "大学"])
「東京大学」 「東京」+「大学」
単語 類似度 単語 類似度
名古屋大学 0.91 明治大学 0.73
東北大学 0.91 中央大学 0.73
九州大学 0.90 早稲田大学 0.73
大阪大学 0.89 法政大学 0.72
北海道大学 0.88 東京電機大学 0.70

結果の単語を類似度の高い順に並べています。 東京大学 の結果は、大学名(旧帝大)の単語が出ています。
東京大学 の結果も大学名の単語が出ていますが、上位5件に現れる単語と類似度は、 東京大学 とは大きく異なりました。
また、東京大学 の類似度上位に現れた大学( 名古屋大学東北大学 など)の本部所在地は全国各地に散らばっていますが、東京大学 の演算結果の類似度上位に現れた大学( 明治大学早稲田大学 など)は、いずれも本部が東京都内にあります。

東京大学東京大学 の結果が異なる理由を考察します。
w2v_004.png
図2のように 東京大学 の類義語は“大学名”という概念の単語が出ていると考えられるのに対し、 東京大学 の類義語は“地名”という概念の単語と“組織”という概念の単語を足し合わせた結果の類義語が出ているということだと思います。

おわりに

ここまでお読みいただきありがとうございました。
演算で得られる結果は、Word2VecとFastTextに大きな差異はないことが確認できました。
また、Word2Vec、FastTextの演算は、単語の概念同士の演算であることを確認しました。

2
1
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
2
1

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?