More than 1 year has passed since last update.

今更ながら 米googleの研究者が開発したWord2Vecで自然言語処理(独自データ) を見ながら word2vec へ入門した。
色々と学習を進めるとトレーニングコマンドのオプションがまとまっているページがなかったのでまとめてみた。

が、入門したての私にはわからないものがほとんど。そして意味がわかってもどういった使い方をすればいいのかがわからないという結果に。。

word2vec のオプション

オプション 内容 備考
-train 学習に使用するファイル 分かち書きが必要
-output 学習結果を出力するファイル名
-size ベクトルの次元数
-window 文脈の最大単語数
-sample 単語を無視する頻度
-hs 学習に階層化ソフトマックスを使用するかどうか
-negative ネガティブサンプリングに用いる単語数
-threads 学習に使用するスレッド数
-iter トレーニング反復回数
-min-count n回未満登場する単語を破棄
-alpha (これよくわからない…)
-classes (ベクトルよりもワードクラスを優先させるらしいがどういうことだ?)
-debug デバッグモード
-binary バイナリ形式で出力するかどうか
-save-vocab 語彙をファイル保存
-read-vocab 語彙をファイルから使用
-cbow 学習モデル CBOW を使うか、Skip-gram を使うか

help

Options:
Parameters for training:
    -train <file>
        Use text data from <file> to train the model
    -output <file>
        Use <file> to save the resulting word vectors / word clusters
    -size <int>
        Set size of word vectors; default is 100
    -window <int>
        Set max skip length between words; default is 5
    -sample <float>
        Set threshold for occurrence of words. Those that appear with higher frequency in the training data
        will be randomly down-sampled; default is 1e-3, useful range is (0, 1e-5)
    -hs <int>
        Use Hierarchical Softmax; default is 0 (not used)
    -negative <int>
        Number of negative examples; default is 5, common values are 3 - 10 (0 = not used)
    -threads <int>
        Use <int> threads (default 12)
    -iter <int>
        Run more training iterations (default 5)
    -min-count <int>
        This will discard words that appear less than <int> times; default is 5
    -alpha <float>
        Set the starting learning rate; default is 0.025 for skip-gram and 0.05 for CBOW
    -classes <int>
        Output word classes rather than word vectors; default number of classes is 0 (vectors are written)
    -debug <int>
        Set the debug mode (default = 2 = more info during training)
    -binary <int>
        Save the resulting vectors in binary moded; default is 0 (off)
    -save-vocab <file>
        The vocabulary will be saved to <file>
    -read-vocab <file>
        The vocabulary will be read from <file>, not constructed from the training data
    -cbow <int>
        Use the continuous bag of words model; default is 1 (use 0 for skip-gram model)

さいごに

私のような入門者の助けになる記事になればいいなと思っています。
不明部分についてご存知の方いれば教えていただけると助かります。

参考