はじめに
表題の通りです。今後使うことがあるかどうかもわかりませんが、備忘録を残しておきます。
必要なもの
Python環境
基本的に普通のWindows10とPython環境があれば対応可能。
※私はJupyter notebookすら使ってないです
MeCab
ググると出てくるので、サクっと取ってきてインストール。(詳細略)
https://taku910.github.io/mecab/
WordCloud
WordCloud自体は
pip install wordcloud
で簡単にインストールできるが、 使おうとすると
error: Microsoft Visual C++ 14.0 or greater is required. Get it with "Microsoft C++ Build Tools": https://visualstudio.microsoft.com/visual-cpp-build-tools/
とエラーを吐かれてしまうので注意が必要。
https://visualstudio.microsoft.com/visual-cpp-build-tools/
ここから「Visual Studio Build Tools 2022」をインストール
Handic
以下からコンパイル済みのもの(binの方)をダウンロード
https://ja.osdn.net/projects/handic/releases/
解凍後はフォルダを任意の場所に置けばよいが、利用時の MeCab.Tagger の引数が変わるので注意
ハングルのフォント
PCに入っているもので良い。このPCに入っていたのはMalgun
C:\Windows\Fonts\Malgun Gothic
出力時にソースコードでハングルフォントを指定しないと文字化けするので注意
ハングルが書かれたテキストファイル
ハングルをコピペして「UTF-8」で保存
例:以下の①풍경(SCENERY)を題材にする
https://joah-girls.com/articles/tX8dU
ソースコードで読み出す側でも「UTF-8で読む」を明示しないと駄目なので注意
使い方
HanDicの呼び出し方
ソースコード上では -dオプションで呼び出す
# ソースコードと同じフォルダにHanDicフォルダを置いた場合
Tag = MeCab.Tagger("-d handic-mecab-20230109_bin")
# 絶対パスでも指定可能
# C:\Users\xxx\Desktop\_my_python\handic-mecab-20230109_bin の場合
# ドライブまたぐとややこしいかも
Tag = MeCab.Tagger("-d /Users/xxx/Desktop/_my_python/handic-mecab-20230109_bin")
その他のポイント
parseToNodeした後、ハングルのword_typeは「Symbol」になっているようです。
おわりに
画像の出力は実行されました。
とりあえず、wordcloudができるのであれば、ハングルでもなんとか扱えそうです。
ただ、一番の問題は、私はハングルが全くわからないので、出力された画像の内容が妥当なものなのかが全くわからないことなんですよね…
(おわり)