NLTK は Python の自然言語処理用ライブラリです。
macOS High Sierra 10.13
Python 3.6.5
NLTKとNUMPYをインストール
NUMPYとは、pythonでベクトルや行列計算を高速に行うのに特化したライブラリらしいです。オプションと記載がありますが推奨らしいですのでインストールしてます。
pip install -U nltk
pip install -U numpy
早速実行するとエラー。。
Resource punkt not found.
Please use the NLTK Downloader to obtain the resource:
>>> import nltk
>>> nltk.download('punkt')
調べてみるとNLTKを使う前には機能をダウンロードする必要があるらしいです。と言うわけで早速ダウンロード。
python -c "import nltk; nltk.download()"
無事分かち書きができました。
>>> import nltk
>>> sentence = "You have eaten lunch, haven't you?"
>>> nltk.word_tokenize(sentence)
['You', 'have', 'eaten', 'lunch', ',', 'have', "n't", 'you', '?']
参考サイト
以下のサイトを参考にさせて頂きました。
http://www.nltk.org/install.html
http://www.nltk.org/book/ch01.html
https://qiita.com/okayu9/items/a123d1a2ef3a9a90fd66
https://code.i-harness.com/ja/q/4a447d