Rでテキストマイニングしよか（初心者向け）

Posted at 2022-12-05

はじめに

watnowアドベントカレンダー5日目担当のしんいちです。今回はテキストマイニングについて書こうと思います。

テキストマイニングとは

テキストマイニングとは複数のテキストを分析してその中から有益な情報を取り出すことです。
結構色々なところで使われていてお客さまアンケートとかの分析、チャットボットなどに使われています。

インストール

何事もインストールから始まります。
RとMeCabをインストールします。
私が使っているPCがMacのためMacでのインストールしかわかりません。

Rのインストール

まずR本体をインストールします
ここからインストールしてください
M1とインテルでインストールするファイルが違うので注意してください。

MeCabのインストール

次にMeCabをインストールします。
Homebrewを用いたインストールです。
Homebrewのインストール方法
ターミナルで以下を実行してください。

brew install mecab
brew install mecab-ipadic

これでMeCabと辞書がインストールされました。
インストールできているか確認する場合はターミナルで以下を実行してください。

これでバージョンなどが表示してあれば完了です。
mecab -v

ワードクラウド

早速やってみましょう！
ワードクラウドとは形態素解析をわかりやすく表示するもので文書のなかで多く出てくる単語が大きく表示されます。
こんな感じです。

これは今（2022年12月5日）話題のワールドカップの記事のワードクラウドです。
雰囲気がわかったところで早速やってみましょう！
まずRを起動します。
次にテキストファイルを用意します。テキストファイルは自分で作るのもよし、ネットから取ってくるもよしです。
以下のコードをRで実行してください

install.packages ("RMeCab", repos = "https://rmecab.jp/R", type = "source") #RMeCabのインストール
library(RMeCab) #RMeCabを立ち上げる
result1 <- RMeCabText(file.choose()) #ワードクラウドにしたいテキストファイルを選ぶ
result11 <- unlist(sapply(result1, "[[", 1)) #単語ベクトルの作成

これでワードクラウドにする下処理は終わりました

install.packages("wordcloud", dependencies = TRUE) #Wordcloudのインストール
library(wordcloud) #wordcloudを立ち上げる
wordcloud(result11, min.freq = 2, family = "HiraKakuProN-W3", random.order = FALSE) #先ほど作った単語ベクトルをワードクラウドにする

これでワードクラウドができました！

まとめ

今回はテキストマイニングの入門書的な感じで書きましたがわかりにくい部分が多いかもしれませんごめんなさい。
ワードクラウドを色々なテキストで作るととても面白いのでぜひやってみてください。
以上読みにくい文章にお付き合いいただきありがとうございました。

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up