LoginSignup
2
1

More than 5 years have passed since last update.

janomeことはじめ

Last updated at Posted at 2018-01-08

環境

  • python:3.5.2
  • pip3:8.1.1
  • janome:0.3.6
  • Ubuntu 16.04

範囲

janomeのインストールとコマンドライン引数を利用したTokenizerの最小限の動作の実装まで

手順

基本的にはJanomeの公式を眺めながらやりました。
また、python3, pip3がインストール済みであることが前提になります。
1. $ pip3 install janome でjanomeをインストール
2. $ pip3 -V でインストールが出来ていることとバージョンを確認
3. エディタで以下のpyファイルを作成

test.py
from janome.tokenizer import Tokenizer
import sys

text = sys.argv
tokenizer = Tokenizer()
for token in tokenizer.tokenize(text[1]):
    print(token)

実行結果

$ python3 test.py もういくつ寝るとお正月 を実行すると以下のように表示される

もう  副詞,一般,*,*,*,*,もう,モウ,モー
いくつ   名詞,代名詞,一般,*,*,*,いくつ,イクツ,イクツ
寝る  動詞,自立,*,*,一段,基本形,寝る,ネル,ネル
と 助詞,接続助詞,*,*,*,*,と,ト,ト
お正月   名詞,一般,*,*,*,*,お正月,オショウガツ,オショーガツ

終わりに

pythonでの形態素解析の取っ掛かりとしてはそう難しいことはなかった。
今回Tokenizerしか利用しておらずAnalyzerやFilterは置いているためそちらは別記事としてまとめる予定。

2
1
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
2
1