自然言語処理の分析手順を備忘録として残しておく。
環境構築手順
- miniforge3をインストール後、仮想環境を構築する。
conda create -n nlp python==3.10 conda activate nlp conda installnumpy pandas matplotlib...
- HomebrewでMeCabをインストールする
下記で動作確認を行える。
# Homebrewのインストールがまだの場合 /bin/bash -c "$(curl -fsSL https://raw.githubusercontent.com/Homebrew/install/HEAD/install.sh)" # 下記も入れていなければ入れる brew install curl xz # MeCabと標準IPA辞書のインストール brew install mecab mecab-ipadic
mecab 今日は暑いが、明日はさらに暑くなりそうだ。 今日 名詞,副詞可能,*,*,*,*,今日,キョウ,キョー は 助詞,係助詞,*,*,*,*,は,ハ,ワ 暑い 形容詞,自立,*,*,形容詞・アウオ段,基本形,暑い,アツイ,アツイ が 助詞,接続助詞,*,*,*,*,が,ガ,ガ 、 記号,読点,*,*,*,*,、,、,、 明日 名詞,副詞可能,*,*,*,*,明日,アシタ,アシタ は 助詞,係助詞,*,*,*,*,は,ハ,ワ さらに 副詞,助詞類接続,*,*,*,*,さらに,サラニ,サラニ 暑く 形容詞,自立,*,*,形容詞・アウオ段,連用テ接続,暑い,アツク,アツク なり 動詞,自立,*,*,五段・ラ行,連用形,なる,ナリ,ナリ そう 名詞,接尾,助動詞語幹,*,*,*,そう,ソウ,ソー だ 助動詞,*,*,*,特殊・ダ,基本形,だ,ダ,ダ 。 記号,句点,*,*,*,*,。,。,。 EOS ctrl + C で終了
-
オリジナルのページにしたがって、より高性能な mecab-ipadic-NEologd 辞書をインストールする。
動作確認は下記のように辞書のパスを指定して行う。
git clone --depth 1 https://github.com/neologd/mecab-ipadic-neologd.git cd mecab-ipadic-neologd # 全部入りの辞書を構築するには -a オプションを下記に付与 # 標準は512MB程度のメモリが必要で、全入りは2GB以上必要 ./bin/install-mecab-ipadic-neologd -n
標準辞書に設定する場合はmecabrcを書き換える。mecab -d /usr/local/lib/mecab/dic/mecab-ipadic-neologd
sudo nano [mecabrcのパス] # 上記で辞書の設定ファイルを開いた後、下記箇所を修正する。 dicdir=[標準指定したい辞書のパス]
- mecab-python3のインストールによりpythonからMeCabを使えるようになる。
pip install mecab-python3