概要
- タイトルの通り、ジョジョのセリフを形態素解析してみました。
- 癖のあるジョジョのセリフは形態素解析できるのか?
コード
import spacy
nlp = spacy.load('ja_ginza')
jojo = ["さすがディオ!俺達に出来ないことを平然とやってのけるッ!そこにシビれる!あこがれるゥ!",
"ディオォォオオーッ!君がッ!泣くまで!殴るのをやめないッ!",
"JOJO、そのチェリー食べないのか?ガッつくようだがぼくの好物なんだ…くれないか?レロレロレロ"]
for text in jojo:
for sent in nlp(text).sents:
for token in sent:
print(token.i, token.orth_, token.lemma_, token.pos_,
token.tag_, token.dep_, token.head.i)
print("----------------------------")
実行結果
0 さすが さすが ADV 副詞 advmod 1
1 ディオ ディオ PROPN 名詞-固有名詞-一般 ROOT 1
2 ! ! PUNCT 補助記号-句点 punct 1
3 俺 俺 PRON 代名詞 nmod 4
4 達 達 NOUN 接尾辞-名詞的-一般 obl 6
5 に に ADP 助詞-格助詞 case 4
6 出来 出来る VERB 動詞-非自立可能 acl 8
7 ない ない AUX 助動詞 aux 6
8 こと こと NOUN 名詞-普通名詞-一般 obj 12
9 を を ADP 助詞-格助詞 case 8
10 平然 平然 ADJ 形状詞-タリ advmod 12
11 と と ADP 助詞-格助詞 case 10
12 やっ やる VERB 動詞-非自立可能 advcl 14
13 て て SCONJ 助詞-接続助詞 mark 12
14 のける のける VERB 動詞-一般 ROOT 14
15 ッ ッ NOUN 接尾辞-名詞的-助数詞 punct 14
16 ! ! PUNCT 補助記号-句点 punct 14
17 そこ そこ PRON 代名詞 obl 19
18 に に ADP 助詞-格助詞 case 17
19 シビれる シビれる VERB 動詞-一般 ROOT 19
20 ! ! PUNCT 補助記号-句点 punct 19
21 あこがれる あこがれる VERB 動詞-一般 dep 22
22 ゥ ゥ SYM 補助記号-一般 ROOT 22
23 ! ! PUNCT 補助記号-句点 punct 22
----------------------------
0 ディオォォオオーッ ディオォォオオーッ NOUN 名詞-普通名詞-一般 ROOT 0
1 ! ! PUNCT 補助記号-句点 punct 0
2 君 君 PRON 代名詞 ROOT 2
3 が が ADP 助詞-格助詞 case 2
4 ッ ッ NOUN 名詞-普通名詞-一般 compound 2
5 ! ! PUNCT 補助記号-句点 punct 2
6 泣く 泣く VERB 動詞-一般 ROOT 6
7 まで まで PART 助詞-副助詞 mark 6
8 ! ! PUNCT 補助記号-句点 punct 6
9 殴る 殴る VERB 動詞-一般 obj 12
10 の の SCONJ 助詞-準体助詞 mark 9
11 を を ADP 助詞-格助詞 case 9
12 やめ やめる VERB 動詞-一般 ROOT 12
13 ない ない AUX 助動詞 aux 12
14 ッ ッ NOUN 接尾辞-名詞的-助数詞 punct 12
15 ! ! PUNCT 補助記号-句点 punct 12
----------------------------
0 JOJO jojo NOUN 名詞-普通名詞-一般 nmod 3
1 、 、 PUNCT 補助記号-読点 punct 0
2 その その DET 連体詞 det 3
3 チェリー チェリー NOUN 名詞-普通名詞-一般 obl 4
4 食べ 食べる VERB 動詞-一般 ROOT 4
5 ない ない AUX 助動詞 aux 4
6 の の SCONJ 助詞-準体助詞 mark 4
7 か か PART 助詞-終助詞 mark 4
8 ? ? PUNCT 補助記号-句点 punct 4
9 ガッ ガッ NOUN 名詞-普通名詞-助数詞可能 advmod 11
10 つく つく VERB 動詞-一般 compound 11
11 よう よう AUX 形状詞-助動詞語幹 advcl 16
12 だ だ AUX 助動詞 cop 11
13 が が SCONJ 助詞-接続助詞 mark 11
14 ぼく ぼく PRON 代名詞 nmod 16
15 の の ADP 助詞-格助詞 case 14
16 好物 好物 NOUN 名詞-普通名詞-一般 advcl 21
17 な だ AUX 助動詞 cop 16
18 ん ん SCONJ 助詞-準体助詞 mark 16
19 だ だ AUX 助動詞 cop 16
20 … . PUNCT 補助記号-句点 compound 16
21 くれ くれる AUX 動詞-非自立可能 ROOT 21
22 ない ない AUX 助動詞 aux 21
23 か か PART 助詞-終助詞 mark 21
24 ? ? PUNCT 補助記号-句点 punct 21
25 レロレロレロ レロレロレロ NOUN 名詞-普通名詞-一般 ROOT 25
----------------------------
まとめ
参考
【初心者向け】自然言語処理ツール「GiNZA」を用いた言語解析(形態素解析からベクトル化まで)
ジョジョ・名セリフ集