##はじめに
※単語の分散表現の学習のためのメモです。
※編集する時間がないので主に自分用のメモです。
##用意するもの
コーパス
日本語のwikipediaで学習したコーパスを使います。下記のリンク先からインストールしてください。
[ja.text8]
(https://s3-ap-northeast-1.amazonaws.com/dev.tech-sketch.jp/chakki/public/ja.text8.zip)
ステップ1.gensimのインストール
pythonインタプリタ
conda install gensim
ステップ2.必要な機能のインストール
pythonインタプリタ
import logging
logging.basicConfig(format='%(asctime)s:%(levelname)s:%(message)s',level-logging.INFO)
sentences = TextCorpus('data/ja.text8')
ステップ3.モデルの学習
pythonインタプリタ
model = Word2Vec(sentences, size=100, window=5, sg=1)
logging.basicConfig(format='%(asctime)s:%(levelname)s:%(message)s',level-logging.INFO)
sentences = TextCorpus('data/ja.text8')
ステップ4.モデルのセーブと読み込み
モデルのセーブ
pythonインタプリタ
model.save('models/model.bin')
#### モデルの読み込み
pythonインタプリタ
model = Word2Vec.load('models/model.bin')