LoginSignup
10
19

More than 5 years have passed since last update.

Janomeを使った日本語形態素解析

Last updated at Posted at 2017-02-26

Janomeを使い方を調べたんでメモ。

Janomeって何?

Janome

Janome (蛇の目) は, Pure Python で書かれた, 辞書内包の形態素解析器です.
依存ライブラリなしで簡単にインストールでき, アプリケーションに組み込みやすいシンプルな API を備える形態素解析ライブラリを目指しています.

お試して使おうと思ってる感じなんで、Pythonで使えて、一番手軽そうなJanomeを使うことに。
Mecabと比べて、pip installだけで使えるのは楽。
その他の日本語形態素解析ツールは、こちらのまとめに。

Janomeの使い方

公式ホームページより抜粋。

from janome.tokenizer import Tokenizer
t = Tokenizer()
for token in t.tokenize(u'すもももももももものうち'):
    print(token)

Tokenizerの出力について

Tokenizer.tokenizeの結果をprintで出力するとこんな感じ。

いる 動詞,非自立,*,*,一段,基本形,いる,イル,イル

こちらによると、左から「元の単語」、「品詞」、「品詞細分類1」、「分類2」、「分類3」、「活用形」、「活用型」、「原形」、「読み」、「発音」とのこと。

tokenizeの結果は、 以下の文字列のプロパティを持ってる。

  • suface: 元の単語
  • part_of_speech: [品詞],[品詞細分類1],[分類2],[分類3]
  • infl_type: 活用形
  • infl_form: 活用型
  • base_form: 原型
  • reading: 読み
  • phonetic: 発音。
10
19
1

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
10
19