#MeCab(日本語の形態素解析エンジン)を使う
#MeCabのinstall
brew install mecab
#MeCabの辞書を install
brew install mecab-ipadic
#MeCabのより詳しい辞書をinstall(推奨空き容量が5GB以上のため必要な場合のみ)
brew install git curl xz
git clone --depth 1 https://github.com/neologd/mecab-ipadic-neologd.git
cd mecab-ipadic-neologd
./bin/install-mecab-ipadic-neologd -n -a
#python3上でmecabを使う(/usr/local/lib/mecab/dic)
pip install mecab-python3
#ユーザー辞書の作成・インポート
#ユーザー辞書(複数作成可能)を有効にする(作った辞書のあるディレクトリまで行く)
#mecabに設定(vim)
vi /usr/local/etc/mecabrc
#キーボードの「I」を押して編集モードに
#黄色の部分に変更する(dicdir=システム辞書, userdic=ユーザー辞書)
; Configuration file of MeCab
;
; $Id: mecabrc.in,v 1.3 2006/05/29 15:36:08 taku-ku Exp $;
;
dicdir = /usr/local/lib/mecab/dic/mecab-ipadic-NEologd
;userdic = /usr/local/lib/mecab/dic/add.dic
; output-format-type = wakati
; input-buffer-size = 8192
; node-format = %m\n
; bos-format = %S\n
; eos-format = EOS\n
#escキーを押し、「:wq」で変更を保存
#ユーザー辞書の更新(ユーザー辞書のあるディレクトリ上で実行)
/usr/local/Cellar/mecab/0.996/libexec/mecab/mecab-dict-index \
-d /usr/local/lib/mecab/dic/ipadic \
-u /usr/local/lib/mecab/dic//add.dic \
-f utf-8 \
-t utf-8 \
add.csv
#Mecabを使う(辞書のあるディレクトリで実行)
# 必要なパッケージをインポート
import psycopg2 as psy2
import MeCab
# コネクション作成
conn = psy2.connect(dbname="", user="r", password="", host="", port="")
# カーソル作成
cur = conn.cursor()
#価格に関するレビューを抽出
price = "select * from *"
# SQL結果を受け取る
cur.execute(price)
#一度に取得する行数を設定(デフォルトは2000行)
cur.itersize = 10000
#結果の最初の行だけ取ってくる
result1 = cur.fetchone()
#全ての結果を取得する
result2 = cur.fetchall()
#MeCabで使用する辞書を指定し、分かち書き
m = MeCab.Tagger("-Ochasen -u ユーザー辞書名.dic")
print(m.parse(str(price)))
CaboCha(日本語の係り受け解析エンジン)を使う
gensim(LDAやword2vecが使えるライブラリ)を使う
pip install gensim