Python
Linux
形態素解析
janome

環境

  • python:3.5.2
  • pip3:8.1.1
  • janome:0.3.6
  • Ubuntu 16.04

範囲

janomeのインストールとコマンドライン引数を利用したTokenizerの最小限の動作の実装まで

手順

基本的にはJanomeの公式を眺めながらやりました。
また、python3, pip3がインストール済みであることが前提になります。
1. $ pip3 install janome でjanomeをインストール
2. $ pip3 -V でインストールが出来ていることとバージョンを確認
3. エディタで以下のpyファイルを作成

test.py
from janome.tokenizer import Tokenizer
import sys

text = sys.argv
tokenizer = Tokenizer()
for token in tokenizer.tokenize(text[1]):
    print(token)

実行結果

$ python3 test.py もういくつ寝るとお正月 を実行すると以下のように表示される

もう  副詞,一般,*,*,*,*,もう,モウ,モー
いくつ   名詞,代名詞,一般,*,*,*,いくつ,イクツ,イクツ
寝る  動詞,自立,*,*,一段,基本形,寝る,ネル,ネル
と 助詞,接続助詞,*,*,*,*,と,ト,ト
お正月   名詞,一般,*,*,*,*,お正月,オショウガツ,オショーガツ

終わりに

pythonでの形態素解析の取っ掛かりとしてはそう難しいことはなかった。
今回Tokenizerしか利用しておらずAnalyzerやFilterは置いているためそちらは別記事としてまとめる予定。