はじめに
BERTやWord2Vecの分散表現の可視化がインタラクティブでできるライブラリです。
transformersやgensimのimportも不要です。
バージョン:whatlies==0.6.3
実行ノートブック:
分散表現空間
from whatlies import EmbeddingSet
from whatlies.language import HFTransformersLanguage
from whatlies.transformers import Pca
lang = HFTransformersLanguage('cl-tohoku/bert-base-japanese-whole-word-masking')
words = ["先生", "教師", "学生", "社員", "研究者", "会社員", "医者", "銀行員"]
emb = EmbeddingSet(*[lang[w] for w in words])
emb.transform(Pca(2))
emb.plot_interactive()
"""widthとheightも設定できる
res = emb.plot_interactive()
res.config = {"view": {"continuousWidth": 1500, "continuousHeight": 1500}}
"""
ベクトル
lang["男"].plot(kind="arrow")
lang["女"].plot(kind="arrow")
lang["王"].plot(kind="arrow")

