#はじめに
基本的にWindows環境での導入は想定されていないMeCabのカスタムシステム辞書mecab-ipadic-NEologdの導入をWindows上でやってやろうじゃないか、という記事です。
Windows10のAnniversary Updateで更新されたBash on Ubuntu on Windows
を利用しての導入となるので、Windows10上でしかできません。あしからず。
#MeCabとは?
オープンソース形態素解析エンジンのこと。文章を動詞、名詞などの品詞に分解して色々な処理ができます。検索すれば詳しい導入解説サイトがあるので、ここでは公式サイトを共有しておこうと思います。最新バージョンは0.996で.exeインストーラをダウンロードするのがおすすめです。
参考:http://taku910.github.io/mecab/
#mecab-ipadic-NEologdの導入
##mecab-ipadic-NEologdとは?
”mecab-ipadic-NEologdは、多数のWeb上の言語資源から得た新語を追加することでカスタマイズしたMeCab用のシステム辞書です。”―――公式サイトより
簡単に言えば既存の辞書に流行語や新語を含んだMeCab用の辞書なのです。
例えば「進撃の巨人」というフレーズが「進撃 の 巨人」と分解されずに「進撃の巨人」の1単語として取れるといった感じです。ありがたい。
参考:https://github.com/neologd/mecab-ipadic-neologd/blob/master/README.ja.md
この辞書の製作者さんが定期的に辞書の更新を行ってくれるので、様々な流行語や新語に対応できます。このシステム辞書を導入しないと、Twitterで流行している言葉はおろか、漫画アニメ書籍のタイトルなどがそれはもう無残なまでにバラバラにされてしまいます。Tweetデータの解析をする上ではmacab-ipadic-NEologdの導入は必須でしょう。
##導入方法
###Bash on Ubuntu on Windowsの導入
Linuxコマンドを使ってmecab-ipadic-neologdをインストールする方法をとりますので、まずはコマンドプロンプト上でLinuxコマンドを叩けるようにしましょう。
以下のサイトを参考にしましょう。
参考:http://qiita.com/Aruneko/items/c79810b0b015bebf30bb
###mecab-ipadic-NEologdのインストール
インストールの手順は製作者の公式サイトを参考に導入しましょう。
参考:https://github.com/neologd/mecab-ipadic-neologd/blob/master/README.ja.md
これを参考にインストールの手順まで行くと、Step.2を実行している途中でインストールが完全に完了することなく止まってしまいます。
具体的には、
$ cd mecab-ipadic-neologd
$ ./bin -install-mecab-ipadic-neologd -n
この後インストールは正常に進行しているように見えますが、いざインストールだ!と"yes"と打ってもエラーを吐いてインストールが正常に完了しない。
どうやらmecab-configに記述されているフォルダパスの問題でBash on Ubuntu on Windowsを使っては正常に動作しない模様。mecab-configを書き直せばできるのだろうか・・・困ったものです・・・。
しかし、辞書本体は正常に解凍されているので、C:\mecab-ipadic-neologd\build
(mecab-ipadic-neologdのインストールフォルダ)以下に、
mecab-ipadic-2.7.0-20070801-neologd-2016[更新日時]
というようなフォルダ名で存在している。辞書よ、こんなところにいたのか。
C:\MeCab\dic
(MeCab本体のインストールフォルダ)内のipadic
に元々のシステム辞書が入っているため、mecab-ipadic-2.7.0-20070801-neologd-2016[更新日時]
をipadic
にリネームして置き換える。
これで完了です。
最新版を1コマンドで取得するなんてことはできませんが、以上の同様の手順をとることでシステム辞書を手動更新することが可能です。
#最後に
以上、Windows端末でMeCabを使いたいけれど辞書が古くて目的の単語が取れないよ!という人のための記事でした。特にTweetの解析がしたい方は参考になるかと思います。
Windows端末がちょっと不便だなと感じた瞬間でした。