##Rで中国語の形態素解析・自然言語処理
Mecabなどを用いて日本語の処理は行ったことがあったのですが
今回、中国語メディアの分析をすることになったので軽く解説。
案外、Rで外国語自然言語関連の記事は少ないんだなと...(みんなPythonでやるんでしょうけど)
今後韓国語やその他言語の処理を行うことも多くなると思うので
社内外向けにシリーズ化していきたい。
##とりあえず名詞抽出からワードクラウド生成まで
chinese_analysis.rb
#パッケージインストール
install.packages("jiebaR")
library("jiebaR")
library("wordcloud2")
#workerで指定するといろいろできるらしいとりあえず、名詞だけ抽出しましょう
cc = worker("tag")
mixseg = worker()
#サンプル
res = cc["杨家的这种爱国精神由衷地佩服,并暗暗下定决心,我一定好好学习,
长大后也要做像杨业一样的人,爱自己的祖国,为了祖国的发展、强大付出自己的全部,
甚至是自己的生命也在所不惜。 之后我们去了万岁山大宋武侠城,一路走走停停来到了水浒街,
看到了许多水浒情景剧,有“拳打镇关西”、“杨志卖刀”、“怒杀西门庆”、还有吞火表演之类的危险表演,
看的我满身冷汗,真为她们捏一把汗呀!还好每次都是有惊无险,这真是“台上一分钟,台下十年功”呀 !
这就像是我们的学习,我们得到的每一分成功都和我们平时的付出紧密相连。在以后的成长道路上,
我会时刻谨记一份耕耘,一份收获这个道理,在学习上踏踏实实地用好每一分,每一秒,绝不偷奸耍滑,
拖拖拉拉,大家一起看我以后的表现吧! 最后我们实景体验了压轴大戏真人版的“三打祝家庄”表演,
只这一个演出参演人员有一百多人,他们个个骑着战马,手持兵器,在沙场上奋勇杀敌。
最先出场的是祝家庄‘一丈青’扈三娘,梁山好汉王英策马迎战,几个回合后,王英被扈三娘活捉回去。
梁山好汉秦明立即前来帮忙,祝家庄的祝龙策马迎战,两人打了十几个回合,祝龙不敌策马跑回了阵营,
祝龙的师傅栾廷玉冲出阵营和秦明厮杀在一起......看着马在沙场奔跑,听着“嘚嘚嘚”的马蹄声,
我仿佛身临其境,最后随着梁山好汉的胜利表演结束! 夜幕降临、华灯初上,
我们去品尝了开封著名小吃灌汤包,这才恋恋不舍的回家了。 六五班 于晗晨"]
#名詞抽出の関数作成
get_noun = function(x){
stopifnot(inherits(x,"character"))
index = names(res) %in% c("n","nr","nr1","nr2","nrj","nrf","ns","nsf","nt","nz","nl","ng")
x[index]
}
#名詞のみ抽出
res<-get_adjective(res)
seg <- segment(res, mixseg)
seg2<-sort(table(seg), decreasing = T)[1:50]
#wordcloud準備
wordcloud_noun<-data.frame(seg2)
colnames(wordcloud_noun) <- c("word","freq")
#wordcloud描写
wordcloud2(wwordcloud_noun,size=1,minSize=0)
とりあえずここまでできればあとはMecabなどの処理と変わらないのでいろいろ遊んでみる予定。
##参考文献
Package ‘jiebaR’
https://cran.r-project.org/web/packages/jiebaR/jiebaR.pdf
Quick Start Guide - jiebaR
https://cran.r-project.org/web/packages/jiebaR/vignettes/Quick_Start_Guide
上手jiebaR
https://www.cnblogs.com/hyacinth-yuan/p/8243476.html