Python
Chinese
stringOperation
alphabet

Python > string > alphabet以外をsetとして取得する > 学習対象の中国語だけを抜き出す | 簡体字の入力と音の確認

動作環境
ideone (Python 3.5)

処理概要

  • 文字列からalphabetを除く
  • setとして取得する

中国語の歌をもとに中国語を学習している (小小鹿や寄明月)。
どの種類の簡体字があり、その簡体字はどのように発音するか、ピンインはどうか、を知れば歌詞と音の対応は取れるかもしれない。

(フランス語のようなリエゾンはないとする。ないのかは未消化)

code v0.1

(Note: 歌詞はライセンス関係で問題になりそうなので、覚えた単語で文章を作った。)

https://ideone.com/J6jUoF

import string

txt = "我是个日本人。我毎天六点半起床。我学习Python。我总在好奇"

wrk = [x for x in txt if not x in string.ascii_lowercase]
wrk = [x for x in wrk if not x in string.ascii_uppercase]
aset = set(wrk)
print(aset)

実行結果:
{'总', '个', '日', '本', '好', '奇', '半', '六', '起', '是', '在', '床', '我', '学', '毎', '。', '习', '点', '人', '天'}

txt = "我是个日本人。我毎天六点半起床。我学习Python。我总在好奇"

意訳「私は一人の日本人です。毎朝6時30分に起きます。Pythonを学習します。好奇心をいっぱい持っています」

後1万時間くらいかけたら大魚海棠をフルに堪能できるだろう。

簡体字の入力と音の確認

簡体字の入力はピンインを知らないと難しい。

google翻訳で「英語 -> 中国語」にして、探している中国語に対応する英語を入力することで、簡体字が見つかる場合もある。見つかった簡体字を書換えて、探している簡体字を確認できる。
(例: always -> 总是, 总在 -> Always)

簡体字からは下記のサイトで音を確認できる。
http://zh.hatsuon.info/word/
http://zh.hatsuon.info/word/好奇

code v0.2

大文字小文字のチェックをやめてstring.ascii_lettersに変更。
https://docs.python.jp/3/library/string.html

https://ideone.com/CGydk4

import string

txt = "我是个日本人。我毎天六点半起床。我学习Python。我总在好奇"

wrk = [x for x in txt if not x in string.ascii_letters]
aset = set(wrk)
print(aset)

{'点', '。', '六', '天', '本', '学', '在', '奇', '好', '习', '起', '床', '总', '日', '我', '毎', '人', '个', '是', '半'}