0
2

More than 1 year has passed since last update.

MeCabとHandicを使ったWordCloudのハングル対応について

Posted at

はじめに

表題の通りです。今後使うことがあるかどうかもわかりませんが、備忘録を残しておきます。

必要なもの

Python環境

基本的に普通のWindows10とPython環境があれば対応可能。
※私はJupyter notebookすら使ってないです

MeCab

ググると出てくるので、サクっと取ってきてインストール。(詳細略)
https://taku910.github.io/mecab/

WordCloud

WordCloud自体は

pip install wordcloud

で簡単にインストールできるが、 使おうとすると

error: Microsoft Visual C++ 14.0 or greater is required. Get it with "Microsoft C++ Build Tools": https://visualstudio.microsoft.com/visual-cpp-build-tools/

とエラーを吐かれてしまうので注意が必要。

https://visualstudio.microsoft.com/visual-cpp-build-tools/
ここから「Visual Studio Build Tools 2022」をインストール

Handic

以下からコンパイル済みのもの(binの方)をダウンロード
https://ja.osdn.net/projects/handic/releases/
解凍後はフォルダを任意の場所に置けばよいが、利用時の MeCab.Tagger の引数が変わるので注意

ハングルのフォント

PCに入っているもので良い。このPCに入っていたのはMalgun
C:\Windows\Fonts\Malgun Gothic
出力時にソースコードでハングルフォントを指定しないと文字化けするので注意

ハングルが書かれたテキストファイル

ハングルをコピペして「UTF-8」で保存
例:以下の①풍경(SCENERY)を題材にする
https://joah-girls.com/articles/tX8dU
ソースコードで読み出す側でも「UTF-8で読む」を明示しないと駄目なので注意

使い方

HanDicの呼び出し方

ソースコード上では -dオプションで呼び出す

# ソースコードと同じフォルダにHanDicフォルダを置いた場合
Tag = MeCab.Tagger("-d handic-mecab-20230109_bin")
# 絶対パスでも指定可能
# C:\Users\xxx\Desktop\_my_python\handic-mecab-20230109_bin の場合
# ドライブまたぐとややこしいかも
Tag = MeCab.Tagger("-d /Users/xxx/Desktop/_my_python/handic-mecab-20230109_bin")

その他のポイント

parseToNodeした後、ハングルのword_typeは「Symbol」になっているようです。

おわりに

画像の出力は実行されました。
とりあえず、wordcloudができるのであれば、ハングルでもなんとか扱えそうです。
ただ、一番の問題は、私はハングルが全くわからないので、出力された画像の内容が妥当なものなのかが全くわからないことなんですよね…

(おわり)

0
2
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
0
2