2
1

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?

More than 3 years have passed since last update.

多言語でも自然言語処理〜その1中国語jiebaR〜

Last updated at Posted at 2020-04-21

##Rで中国語の形態素解析・自然言語処理
Mecabなどを用いて日本語の処理は行ったことがあったのですが
今回、中国語メディアの分析をすることになったので軽く解説。
案外、Rで外国語自然言語関連の記事は少ないんだなと...(みんなPythonでやるんでしょうけど)
今後韓国語やその他言語の処理を行うことも多くなると思うので
社内外向けにシリーズ化していきたい。

##とりあえず名詞抽出からワードクラウド生成まで

chinese_analysis.rb

#パッケージインストール
install.packages("jiebaR")
library("jiebaR")
library("wordcloud2")

#workerで指定するといろいろできるらしいとりあえず、名詞だけ抽出しましょう
cc = worker("tag")
mixseg = worker()
#サンプル
res = cc["杨家的这种爱国精神由衷地佩服,并暗暗下定决心,我一定好好学习,
         长大后也要做像杨业一样的人,爱自己的祖国,为了祖国的发展、强大付出自己的全部,
         甚至是自己的生命也在所不惜。 之后我们去了万岁山大宋武侠城,一路走走停停来到了水浒街,
         看到了许多水浒情景剧,有“拳打镇关西”、“杨志卖刀”、“怒杀西门庆”、还有吞火表演之类的危险表演,
         看的我满身冷汗,真为她们捏一把汗呀!还好每次都是有惊无险,这真是“台上一分钟,台下十年功”呀 !
         这就像是我们的学习,我们得到的每一分成功都和我们平时的付出紧密相连。在以后的成长道路上,
         我会时刻谨记一份耕耘,一份收获这个道理,在学习上踏踏实实地用好每一分,每一秒,绝不偷奸耍滑,
         拖拖拉拉,大家一起看我以后的表现吧! 最后我们实景体验了压轴大戏真人版的“三打祝家庄”表演,
         只这一个演出参演人员有一百多人,他们个个骑着战马,手持兵器,在沙场上奋勇杀敌。
         最先出场的是祝家庄‘一丈青’扈三娘,梁山好汉王英策马迎战,几个回合后,王英被扈三娘活捉回去。
         梁山好汉秦明立即前来帮忙,祝家庄的祝龙策马迎战,两人打了十几个回合,祝龙不敌策马跑回了阵营,
         祝龙的师傅栾廷玉冲出阵营和秦明厮杀在一起......看着马在沙场奔跑,听着“嘚嘚嘚”的马蹄声,
         我仿佛身临其境,最后随着梁山好汉的胜利表演结束! 夜幕降临、华灯初上,
         我们去品尝了开封著名小吃灌汤包,这才恋恋不舍的回家了。 六五班 于晗晨"]

#名詞抽出の関数作成
get_noun = function(x){
  stopifnot(inherits(x,"character"))
  index = names(res) %in% c("n","nr","nr1","nr2","nrj","nrf","ns","nsf","nt","nz","nl","ng")
  x[index]
}

#名詞のみ抽出
res<-get_adjective(res)
seg <- segment(res, mixseg)
seg2<-sort(table(seg), decreasing = T)[1:50]

#wordcloud準備
wordcloud_noun<-data.frame(seg2)
colnames(wordcloud_noun) <- c("word","freq")

#wordcloud描写
wordcloud2(wwordcloud_noun,size=1,minSize=0)

##アウトプット
chinese.png

とりあえずここまでできればあとはMecabなどの処理と変わらないのでいろいろ遊んでみる予定。

##参考文献
Package ‘jiebaR’
https://cran.r-project.org/web/packages/jiebaR/jiebaR.pdf
Quick Start Guide - jiebaR
https://cran.r-project.org/web/packages/jiebaR/vignettes/Quick_Start_Guide
上手jiebaR
https://www.cnblogs.com/hyacinth-yuan/p/8243476.html

2
1
1

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
2
1

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?