7
3

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?

More than 3 years have passed since last update.

中国語形態素解析エンジンのjiebaを使ってみる

Last updated at Posted at 2020-02-22

中国語形態素解析エンジンjieba

jiebaのPython版で使ってみました。
他のプログラミング言語のバージョンもあります

インストール

$ pip install jieba

テキストセグメンテーション

>>> import jieba
>>> text = "我明天去东京大学上课。早上十点开始。"
#"私は明日東京大学の授業に出ます。朝の十時から。"

jieba.cutの戻り値はジェネレータ
jieba.lcutの戻り値はリスト
jieba.cut_for_searchの戻り値はジェネレータ
jieba.lcut_for_searchの戻り値はリスト

Accurate Mode

>>> segments = jieba.cut(text)
>>> list(segments)
['', '明天', '', '东京大学', '上课', '', '早上', '十点', '开始', '']
>>> segments = jieba.lcut(text)
>>> segments
['', '明天', '', '东京大学', '上课', '', '早上', '十点', '开始', '']

东京大学がひと単語になっています、いいですね!

Full Mode

cut_all=Trueにする。

>>> segments = jieba.cut(text, cut_all=True)
>>> list(segments)
['', '明天', '', '东京', '东京大学', '大学', '学上', '上课', '', '早上', '十点', '开始', '']
>>> segments = jieba.lcut(text, cut_all=True)
>>> segments
['', '明天', '', '东京', '东京大学', '大学', '学上', '上课', '', '早上', '十点', '开始', '']

Search Engine Mode

>>> segments = jieba.cut_for_search(text)
>>> list(segments)
['', '明天', '', '东京', '大学', '东京大学', '上课', '', '早上', '十点', '开始', '']
>>> segments = jieba.lcut_for_search(text)
>>> segments
['', '明天', '', '东京', '大学', '东京大学', '上课', '', '早上', '十点', '开始', '']

キーワード抽出

>>> import jieba.analyse
>>> text = '''
... 伴随全球化进程不断加速人类正面临着日益严峻的挑战能源危机环境污染金融环境不稳定以及贫穷等各种问题不断显现在我们面前应对这些挑战各类人才需要通力协作献力献策共同攻克这些全球化难题在这种背景下作为领导型人才的摇篮东京大学肩负着义不容辞的责任我们将会以无限的勇气智慧与责任感迎面直对这些挑战
... 学贵精专攀登学术巅峰毋庸置疑成为治学的原动力对于在治学道路上苦苦求索的年轻学者和广大学生而言他们不断前进不断成长的动力源自于获取最精尖知识的一种兴奋感与喜悦感东京大学不负国民所托为这些学生学者提供了成长的乐土使其更好地造福社会
... 东京大学创立至今一直保持着东西方文化相结合的学术观点不断发展放眼世界形成一面独特的旗帜秉承传统展望未来东京大学吸引了各式人才汇聚于此探索求知灵变创新将逐步成为全球性知识创新与协作的据点”。在东大国界文化年龄的壁垒通通被打破新领域学术研究超越文理界限产官学合作在此通力展开为实现这一目标首先需要创立卓越性与国际性二者兼备的研究生院并积极开展跨学科的新学术领域拓展... 东京大学宪章中规定东京大学致力于为世界和平与人类福祉作出不朽的贡献而现代社会正飞速发展我们需要顺应时代发展的要求将学术研究赋予新时代的意义在坚守传统的同时体制改革亦不可或缺在深化本科生教育改革的同时不断推进研究生院的根本变革使其创造知识价值主体的意义显现出来此外亟需推进人事制度的改革创新大力倡导男女平等多给年轻人创造学以致用的机会 并实现兼顾人力资源的流动性与稳定性 不可忽视的一个问题是推进上述改革的前提是提升整个社会对科研学术的信赖感而这种信赖感建立在强化科研道德水准推动科研成果转化的基础之上
... 通过不断推陈出新我们致力于将东京大学发展成为为日本民众所爱戴乃至为整个世界所爱戴的东京大学
... '''

テキストは東京大学総長談論中国語版になります。

tf-idf値による抽出

>>> keywords = jieba.analyse.extract_tags(text, topK=20, withWeight=False, allowPOS=())
>>> keywords
['东京大学', '不断', '信赖感', '学术', '挑战', '人才', '治学', '知识', '研究生院', '爱戴', '学术研究', '创新', '推进', '全球化', '改革', '科研', '这些', '致力于', '喜悦感', '创立']

良さそうですね。日本の漢字と少し違いますが、だいたい読めます。

TextRankに基づく抽出

>>> keywords = jieba.analyse.textrank(text, topK=20, withWeight=False, allowPOS=('ns', 'n', 'vn', 'v'))
>>> keywords
['成为', '知识', '创新', '学术', '发展', '需要', '改革', '人才', '推进', '科研', '挑战', '实现', '领域', '意义', '社会', '学术研究', '人类', '文化', '治学', '勇气']

その他

他にもたくさんの機能を持っていて、
辞書をいじったり、品詞タグ付けしたり、などの事ができるので、詳しくは公式をみた方が良さそうです。README.mdの前半は中国語ですが、後半は英語訳になっています。

筆者は東京大学と全く関係ありあません。

7
3
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
7
3

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?