More than 1 year has passed since last update.

特許文章版分散表現：word2vecの学習済モデル ver1.0

Last updated at 2024-12-16Posted at 2020-03-08

分散表現公開

前回作った分散表現のバージョンアップ版（ver1.0）

特許版word2vec学習モデル(.model)214MB注意
特許版word2vec学習モデル(.model.wv.vectors.npy)3160MB注意
特許版word2vec学習モデル(.model.trainables.syn1neg.npy)3160MB注意

2013～2015年に日本国特許庁で発行された全公開公報（150万件ほど）の全文を用いて学習
tokenizeはMeCab+NEologdです。
次元数は300次元
ただし、データが重すぎてエラーが出てcolaboratoryでは動かない場合があります。動作が確認できたのはGCEの n1-highmem-8 (8 vCPUs, 52 GB memory)　です。これくらいのスペックがないと動かないかもしれません。

です。

model.corpus_count #77222
model.vector_size #300
len(model.wv.vocab) #2831509

使い方

使い方は他の公開モデルと大体同じ↓
上記3つのファイルを同じフォルダに入れて、
/path/to/model/patent_w2v_d300_20200208.modelを適宜ファイルの場所に置き換えてもらい、
使ってください。

from gensim.models.word2vec import Word2Vec
model_path = '/path/to/model/patent_w2v_d300_20200208.model'
model = Word2Vec.load(model_path)

読み込みできれば、分散表現を作るなり、

word=""
results = model.wv.most_similar(positive=[word])
for r in results:
    print(r)

などで類似語を抽出するなり。

実験

2014年で既にword2vecモデルを作成、実験されたサイト(以下、「2014モデル」）があったので、それとの比較を。
※tokenizeや学習元のデータやパラメータが違うと思うので厳密な比較ではありませんが。

類似語

word = "情報処理装置" #@param {type:"string"}
results = model.wv.most_similar(positive=[word],topn=10)
wds =[]
for r in results:
    wds.append(r[0])
print(" ".join(wds))

比較	今回モデル(類似度上位10)	2014モデル
筆記具	ボールペンマーキングペンシャープペンシル筆記用具万年筆ボールペンレフィル筆記ペン先プラスチックチップレフィル	ボールペン筆記万年筆消しゴム水性ボールペン水性インキ筆記具用インキ筆記用具サインペン
自動車	車両自動車用輸送機器内装部品車両用自動車部品内装材自動車分野産業機器車載用	乗用車オートバイ車両車輌車輛二輪車乗り物乗物
スマートフォン	携帯電話ノート型パソコンタブレット端末モバイル機器携帯情報端末タブレットコンピュータパソコンノート型パーソナルコンピュータノートPC カーナビゲーションシステム	ＰＤＡ　携帯情報端末　パソコン　pda　携帯型コンピュータ　カーナビ
ラーメン	激戦区うどん中華料理春雨稲庭うどんロングパスタそうめんウドン日本そばきしめん	うどん味噌汁スープ麺類麺玉子
情報処理装置	演算処理装置携帯型ハードウェア構成コンピュータ制御装置基板処理システム処理システム入力装置 CPU(CentralProcessingUnit) CPU	情報処理システムデータ処理装置コンピュータ装置多機能周辺装置情報処理プログラム
煩雑	面倒高コスト煩雑化複雑コスト高煩雑さ手間繁雑不要非効率	繁雑面倒煩わしい煩瑣手間
円滑	スムーズ効率的速やかスムース確実迅速安定的容易効果的定常的	スムーズスムース確実容易迅速速やか

ラーメン⇒「激戦区」は明らかに類義語ではない・・・w

類推語

positive = "プリンタ,カメラ"
negative = "印刷"results= model.wv.most_similar(positive=positive.split(","), negative=negative.split(","), topn=5)

wds=[]
for r in results:
    wds.append(r[0])
print("{}→({})".format(positive.split(",")[0]," ".join(wds)))

比較	今回モデル(類似度上位10)	2014モデル
印刷→プリンタ通信→?	通信→(コントローラ通信装置 CPU(CentralProcessingUnit) 外部装置通信インターフェース)	通信→(通信制御装置ＬＡＮデータ通信無線通信回線無線通信網ゲートウェイ装置通信機器)
プリンタ→印刷　カメラ→?	カメラ→(デジタルカメラ撮像装置ビデオカメラプリンター着脱マウント)	カメラ→(撮影　撮像　被写体　撮像カメラ　ステレオ撮影　テレビカメラ)

今回のモデルを使って出力してみた他の例：

positive = "飛行機" 
negative = "翼"
飛行機→(電車 オートバイ 乗り物 電動カート バイク)

positive = "水素自動車,電気自動車"
negative = "電池"
水素自動車→(燃料電池自動車 水素スタンド 天然ガス自動車 圧縮天然ガス ハイブリット自動車)

positive = "信州"
negative = "蕎麦"
信州→(日刊工業新聞 誠文堂新光社 アンダーラボラトリーズ 技報堂 宝島社)

positive = "人間,ロボット"
negative = "心"
人間→(操作者 ロボットアーム ユーザ 作業者 使用者)

人間から「心」を取ると「作業者」や「使用者」になってしまうのですな。心しようと思いました。

その他

そのうちこんな形の実験しないとです。

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up

特許文章版 分散表現：word2vecの学習済モデル ver1.0

分散表現公開

使い方

実験

類似語

類推語

今回のモデルを使って出力してみた他の例：

その他

特許文章版分散表現：word2vecの学習済モデル ver1.0