形態素解析
30. 形態素解析結果の読み込み
形態素解析結果(neko.txt.mecab)を読み込むプログラムを実装せよ.ただし,各形態素は表層形(surface),基本形(base),品詞(pos),品詞細分類1(pos1)をキーとするマッピング型に格納し,1文を形態素(マッピング型)のリストとして表現せよ.第4章の残りの問題では,ここで作ったプログラムを活用せよ.
# -*- coding: utf-8 -*-
import MeCab
def create_MeCabFile(filename):
# 形態素解析の結果を.mecabファイルに格納
with open(filename) as data_file, open(filename + '.mecab', 'w') as out_file:
mecab = MeCab.Tagger()
out_file.write(mecab.parse(data_file.read()))
def mapping_MeCab(mecabFilename):
with open(mecabFilename, encoding='utf-8') as mecabFile:
sentense = []
sentenses = []
for morpheme in mecabFile.read().split('\n'):
# MeCabの形態素解析結果
# → 表層形\t品詞,品詞細分類1,品詞細分類2,品詞細分類3,活用型,活用形,原形,読み,発音
# 解析結果をタブで区切る
surfase = morpheme.split('\t')
# 解析結果が出力されている行(=タブがある行)のみ処理対象
if len(surfase) >= 2:
# 残りをカンマで区切る
result = surfase[1].split(',')
# 結果をマッピングで格納
word = {
'surface' : surfase[0],
'base' : result[6],
'pos' : result[0],
'pos1' : result[1]
}
# 1文単位のリストに追加
sentense.append(word)
# 句点か空白があったら終了
if word['pos1'] == '句点':# or word['pos1'] == '空白':
sentenses.append(sentense)
# yield sentense
sentense = []
return sentenses
結果
import analytics_by_MeCab
analytics_by_MeCab.create_MeCabFile('第4章/neko.txt')
morphenes = analytics_by_MeCab.mapping_MeCab('第4章/neko.txt.mecab')
morphenes
...
[{'base': '吾輩', 'pos': '名詞', 'pos1': '代名詞', 'surface': '吾輩'}, {'base': 'は', 'pos': '助詞', 'pos1': '係助詞', 'surface': 'は'}, {'base': '死ぬ', 'pos': '動詞', 'pos1': '自立', 'surface': '死ぬ'}, {'base': '。', 'pos': '記号', 'pos1': '句点', 'surface': '。'}]
[{'base': '死ぬ', 'pos': '動詞', 'pos1': '自立', 'surface': '死ん'}, {'base': 'で', 'pos': '助詞', 'pos1': '接続助詞', 'surface': 'で'}, {'base': 'この', 'pos': '連体詞', 'pos1': '*', 'surface': 'この'}, {'base': '太平', 'pos': '名詞', 'pos1': '一般', 'surface': '太平'}, {'base': 'を', 'pos': '助詞', 'pos1': '格助詞', 'surface': 'を'}, {'base': '得る', 'pos': '動詞', 'pos1': '自立', 'surface': '得る'}, {'base': '。', 'pos': '記号', 'pos1': '句点', 'surface': '。'}]
[{'base': '太平', 'pos': '名詞', 'pos1': '一般', 'surface': '太平'}, {'base': 'は', 'pos': '助詞', 'pos1': '係助詞', 'surface': 'は'}, {'base': '死ぬ', 'pos': '動詞', 'pos1': '自立', 'surface': '死な'}, {'base': 'ない', 'pos': '助動詞', 'pos1': '*', 'surface': 'なけれ'}, {'base': 'ば', 'pos': '助詞', 'pos1': '接続助詞', 'surface': 'ば'}, {'base': '得る', 'pos': '動詞', 'pos1': '自立', 'surface': '得'}, {'base': 'られる', 'pos': '動詞', 'pos1': '接尾', 'surface': 'られ'}, {'base': 'ぬ', 'pos': '助動詞', 'pos1': '*', 'surface': 'ぬ'}, {'base': '。', 'pos': '記号', 'pos1': '句点', 'surface': '。'}]
[{'base': '南無阿弥陀仏', 'pos': '名詞', 'pos1': '一般', 'surface': '南無阿弥陀仏'}, {'base': '南無阿弥陀仏', 'pos': '名詞', 'pos1': '一般', 'surface': '南無阿弥陀仏'}, {'base': '。', 'pos': '記号', 'pos1': '句点', 'surface': '。'}]
[{'base': 'ありがたい', 'pos': '形容詞', 'pos1': '自立', 'surface': 'ありがたい'}, {'base': 'ありがたい', 'pos': '形容詞', 'pos1': '自立', 'surface': 'ありがたい'}, {'base': '。', 'pos': '記号', 'pos1': '句点', 'surface': '。'}]
31. 動詞
動詞の表層形をすべて抽出せよ.
結果
import analytics_by_MeCab
result_mecab = analytics_by_MeCab.mapping_MeCab('第4章/neko.txt.mecab')
surface = []
for sentnese in result_mecab:
for morphene in sentnese:
if morphene['pos'] == '動詞':
surface.append(morphene['surface'])
surface
Out[8]:
['生れ', 'つか', 'し', '泣い', 'し', 'いる', '始め', '見', '聞く', '捕え', '煮', '食う', '思わ', '載せ', 'られ', '持ち上げ', 'られ', 'し', 'あっ', '落ちつい', '見', '見', '思っ', '残っ', 'いる', 'さ', 'れ', 'し', '逢っ', '出会わ', 'し', 'なら', 'し', 'いる', '吹く', 'せ', '弱っ', '飲む', '知っ', '坐っ', 'おっ', 'する', 'し', '始め', '動く', '動く', '分ら', '廻る', 'なる', '助から', '思っ', 'いる', 'さり', 'し', '出', 'し', 'いる', '考え出そ', '分ら', '付い', '見る', 'い', 'おっ', '見え', '隠し', 'しまっ', '違っ', '明い', 'い', 'られ', '這い出し', '見る', '棄て', 'られ', '這い出す', 'ある', '坐っ', 'し', '考え', '見', '出', 'し', '泣い', '来', 'くれる', '考え付い', 'やっ', '見', '来', '渡っ', 'かかる', '減っ', '来', '泣き', '出', 'ある', 'ある', 'し', 'そろ', '廻り', '始め', 'し', '這っ', '行く', '出', '這入っ', 'なる', '思っ', '崩れ', 'もぐり込ん', '破れ', 'い', 'し', '知れ', '云っ', '至る', 'する', 'なっ', 'いる', '忍び込ん', '分ら', 'なる', '減る', '降っ', '来る', '出来', 'なっ', 'あるい', '行く', '考える', '這入っ', 'おっ', '見る', 'し', '逢っ', '見る', 'つかん', '抛り出し', '思っ', 'ねぶっ', '任せ', 'い', '出来', '見', '這い', '上っ', '投げ出さ', 'れ', '投げ出さ', 'れ', '這い', '上り', '這い', '上っ', '投げ出さ', 'れ', '繰り返し', 'し', 'いる', '云う', 'なっ', 'し', 'やっ', '下り', 'つまみ出さ', 'れよ', 'し', 'いい', '出', '来', 'ぶら下げ', '向け', '出し', '出し', '上っ', '来', '困り', 'いう', '撚り', '眺め', 'おっ', '置い', 'やれ', '這入っ', 'しまっ', '聞か', '見え', '抛り出し', '極める', 'し', '合せる', '帰る', '這入っ', '出', '来る', '思っ', 'いる', '見せ', 'いる', 'いう', '覗い', '見る', 'し', 'いる', 'ある', '読みかけ', 'ある', 'たらし', 'いる', '帯び', 'あらわし', 'いる', '食う', '食っ', '飲む', '飲ん', 'ひろげる', '読む', 'なる', '垂らす', '繰り返す', '考える', 'ある', '生れ', 'なる', '限る', '寝', 'い', '勤まる', '出来', '云わ', 'せる', '来る', '鳴らし', 'いる', '住み込ん', '行っ', '跳ね', '付け', 'られ', 'し', 'くれ', 'さ', 'れ', '至る', 'つけ', 'くれ', '分る', '出来', '得る', '入れ', 'くれ', 'いる', 'つとめ', '読む', '乗る', 'する', '乗る', '構い', 'やむを得ん', '寝る', 'し', '入っ', 'もぐり込ん', 'ねる', 'なる', '入っ', '寝る', '見出し', '割り込む', '醒ます', 'なる', '来', '来', 'いっ', '泣き', '出す', 'さまし', '飛び出し', 'くる', '叩か', 'れ', 'し', 'すれ', 'する', 'せ', '得', 'なっ', 'する', '至っ', 'し', 'かぶせ', '抛り出し', '押し込ん', 'する', 'しよ', '追い廻し', '加える', '磨い', '怒っ', '入れ', 'え', 'い', 'する', '逢う', '言っ', '産まれ', '持っ', '行っ', '棄て', '来たそ', '流し', '話し', 'する', '戦っ', 'せ', 'なら', 'いわ', 'れ', '思う', '隣り', '解し', 'い', 'いっ', 'し', 'いる', '見付け', '食う', 'ある', 'なっ', 'いる', '守ら', '訴え', '見え', '見付け', 'せら', '頼ん', '食い', '得', '奪っ', 'すまし', 'いる', 'おり', '持っ', 'いる', '住ん', 'いる', '送ら', 'れれ', '栄える', '待つ', '思い出し', 'し', 'しよ', 'いっ', '勝れ', '出来る', '出し', 'がる', 'やっ', 'し', '出し', 'かい', 'よる', '凝っ', '習っ', 'ある', '鳴らし', 'する', 'なっ', 'おら', 'やり', '出す', 'うたっ', 'つけ', 'られ', 'いる', 'せ', '繰返し', 'いる', '吹き出す', 'なっ', '住み込ん', 'ある', '提げ', '帰っ', '来', '買っ', '来', '思う', 'やめ', '見え', 'し', 'かい', 'いる', '上げ', '見る', 'かい', 'つか', '思っ', 'やっ', 'いる', '来', 'し', 'いる', '聞い', 'かけ', '見る', 'とっ', '見る', '感ずる', '見', 'かけ', 'かける', '言っ', 'ある', 'かく', '写せ', 'あり', 'あり', '飛ぶ', 'あり', '走る', 'あり', 'あり', 'あり', 'かこう', '思う', 'し', 'いっ', 'ある', '知ら', 'し', 'いる', '嘲', '見え', '出', 'し', 'い', '出', '来', 'やっ', 'いる', '覚め', 'し', 'いる', 'あけ', '見る', '極め込ん', 'いる', '見', 'する', '禁じ', '得', 'せら', 'れ', 'し', 'ある', '寝', 'し', '執っ', 'いる', '動い', '思っ', 'し', 'おっ', 'かき', '上げ', '彩っ', 'いる', 'する', 'いい', 'いい', '勝る', '思っ', 'おら', '描き出さ', 'れ', 'ある', '思わ', 'れ', '違う', '含める', '有し', 'いる', '見', '疑う', '思う', '見る', 'され', '交ぜ', 'いう', '評し', '寝', 'いる', 'し', '見え', '寝', 'いる', 'し', '思っ', 'せ', '得', '動か', 'におっ', 'やり', '思っ', 'いる', 'する', '出来', 'なっ', 'やむをえ', 'し', 'し', '押し出し', 'し', 'なっ', '見る', 'し', 'い', '打ち', '行っ', '足そ', '思っ', '這い出し', '掻き', '交ぜ', 'し', '怒鳴っ', '罵る', '知ら', 'し', '知ら', '思う', '乗る', 'する', '甘んじ', '受ける', 'なる', 'し', 'くれ', '立っ', 'し', 'いる', '出', '来', '窘め', 'やら', 'する', '分ら', 'する', '悲しむ', 'し', 'ある', 'ある', 'し', '当る', '騒い', '出来', '出', '養う', 'し', '運ば', 'し', '嗅ぎ', 'くる', '押し倒し', '寝', 'いる', '近づく', '心付か', '心付く', 'し', '眠っ', 'いる', '睡ら', 'れる', '驚か', '得', '過ぎ', '抛', 'かけ', 'する', '見え', '燃え', '思わ', 'れ', '云う', '有し', 'いる', 'ある', '忘れ', 'し', '眺め', 'いる', '出', '誘っ', '落ち', '開い', 'し', 'いる', 'する', '輝い', 'い', 'し', '射る', 'あつめ', '云っ', 'し', '思っ', 'し', '籠っ', 'いる', '抱い', 'し', '思っ', '装っ', '答え', 'し', 'おっ', 'せる', '聞い', 'あきれ', '住ん', 'でる', 'いる', '思っ', '瘠せ', 'てる', '吹きかける', 'する', '思わ', 'れ', '切っ', 'し', 'いる', '見る', '食っ', 'てる', '暮し', 'いる', '云う', '聞か', '得', '知ら', 'し', 'なっ', 'いる', '聞い', '起す', '生じ', '試し', 'みよ', '思っ', 'し', '見', 'いら', '見', 'いる', '食える', '見える', '行っ', 'し', '廻っ', 'い', 'くっ', '付い', '来', '見', 'たた', '見違える', '太れる', '願う', 'しよ', '住ん', 'いる', '思わ', 'れる', 'たっ', '足し', 'なる', '障っ', 'そい', 'し', '付か', 'せ', '立ち去っ', 'なっ', 'する', 'する', '吐く', 'し', '聞い', '寝転び', 'し', 'いる', '話し', '繰り返し', '向っ', 'し', 'とっ', 'ある', 'し', 'いる', '至っ', 'なら', 'し', 'い', '接し', '行か', 'とろ', '思っ', '捕ら', '答え', '張っ', 'いる', '震わせ', '笑っ', 'する', '足り', 'あっ', 'し', '鳴らし', 'し', 'いれ', '御し', 'なっ', '飲み込ん', 'し', 'する', 'しゃべら', 'し', '濁す', '定め', 'とっ', 'そそのかし', '見', 'し', '来', 'とっ', 'つづけ', '引き受ける', 'い', '合わ', 'い', '向っ', '逢っ', '打つ', 'ぱちつかせ', '云う', '持っ', '這い', '込ん', 'い', '喰っ', '飛び出し', '思い', 'し', '見せる', 'い', 'ぐれ', 'え', '追っかけ', '追い込ん', '思い', 'やっ', 'し', 'やる', 'いざっ', 'なる', 'こきゃ', 'がっ', '臭え', 'い', '見る', '至っ', '感ずる', '揚げ', 'なで', '廻', 'し', 'する', '付け', 'やろ', '思っ', '睨ま', 'れ', '捕る', '食う', '肥っ', 'とる', 'し', 'し', 'いう', 'える', 'つまら', '稼い', 'とっ', 'ふて', 'え', 'い', 'とっ', '取り上げ', 'や', 'がっ', '持っ', '行きゃ', 'あがる', '捕っ', '分ら', 'くれる', '儲け', 'いやがる', '食わせ', 'ありゃ', 'し', 'わかる', '見え', '怒っ', '逆立て', 'いる', 'なっ', 'し', '帰っ', 'とる', 'し', 'なっ', 'あるく', 'し', '食う', '寝', 'い', 'いる', 'なる', '見える', 'し', 'なる', '知れ', 'いえ', '至っ', '悟っ', '見え', 'かきつけ', '云う', '始め', '出逢っ', 'し', '云う', 'なる', 'し', 'いる', '云う', '好か', 'れる', 'し', '云う', 'する', 'せ', 'られ', '云う', 'いう', 'する', 'する', 'する', 'さ', 'れ', '進ん', 'やる', '於け', 'する', '気づかい', 'せ', '思っ', '済し', 'いる', '飲ん', '這入る', 'なり', '得る', '立つ', 'なり', '得る', 'し', 'かねる', 'い', 'す', 'ある', 'せ', '抜け', '置い', '書い', 'いる', 'かい', 'なら', '思っ', '抛っ', '置い', 'し', '懸け', 'くれ', '見', 'なっ', '見る', 'なっ', '暮らし', 'いる', '明け', '覚め', 'なっ', 'しまっ', '背負っ', 'ある', 'い', 'いる', '見える', 'なれ', '見', 'し', 'つく', '切っ', 'し', '力め', 'いる', 'する', 'つか', '分る', 'し', 'し', 'し', '思わ', 'れる', '出さ', 'する', '笑い', '掻く', 'わら', 'れ', '気がつか', 'し', 'いる', 'し', '信じよ', '思わ', '聞い', '記さ', 'せ', '得', '吹き', '散らし', '担ぐ', 'し', 'いる', '伝え', 'せ', 'なっ', 'っ', '言う', '受ける', 'する', 'ある', 'し', 'なる', '書く', 'やめ', 'し', 'さ', 'せ', '言っ', '話し', '繰り返し', 'し', 'おっ', 'ある', 'いる', '話し', '出', '死ぬ', '襲う', '評し', '坐っ', 'いる', '知ら', '云っ', 'いっ', '読ん', 'おら', '知っ', 'し', '問いかけ', 'いっ', '読ん', 'い', 'する', '欺く', 'あらわれ', '困る', '感じ', '動じ', '間違え', '云う', ...]
32. 動詞の原形
動詞の原形をすべて抽出せよ.
結果
base = []
for sentnese in result_mecab:
for morphene in sentnese:
if morphene['pos'] == '動詞':
base.append(morphene['base'])
base
Out[11]:
['生れる', 'つく', 'する', '泣く', 'する', 'いる', '始める', '見る', '聞く', '捕える', '煮る', '食う', '思う', '載せる', 'られる', '持ち上げる', 'られる', 'する', 'ある', '落ちつく', '見る', '見る', '思う', '残る', 'いる', 'する', 'れる', 'する', '逢う', '出会う', 'する', 'なる', 'する', 'いる', '吹く', 'する', '弱る', '飲む', '知る', '坐る', 'おる', 'する', 'する', '始める', '動く', '動く', '分る', '廻る', 'なる', '助かる', '思う', 'いる', 'さる', 'する', '出る', 'する', 'いる', '考え出す', '分る', '付く', '見る', 'いる', 'おる', '見える', '隠す', 'しまう', '違う', '明く', 'いる', 'られる', '這い出す', '見る', '棄てる', 'られる', '這い出す', 'ある', '坐る', 'する', '考える', '見る', '出る', 'する', '泣く', '来る', 'くれる', '考え付く', 'やる', '見る', '来る', '渡る', 'かかる', '減る', '来る', '泣く', '出る', 'ある', 'ある', 'する', 'そる', '廻る', '始める', 'する', '這う', '行く', '出る', '這入る', 'なる', '思う', '崩れる', 'もぐり込む', '破れる', 'いる', 'する', '知れる', '云う', '至る', 'する', 'なる', 'いる', '忍び込む', '分る', 'なる', '減る', '降る', '来る', '出来る', 'なる', 'あるく', '行く', '考える', '這入る', 'おる', '見る', 'する', '逢う', '見る', 'つかむ', '抛り出す', '思う', 'ねぶる', '任せる', 'いる', '出来る', '見る', '這う', '上る', '投げ出す', 'れる', '投げ出す', 'れる', '這う', '上る', '這う', '上る', '投げ出す', 'れる', '繰り返す', 'する', 'いる', '云う', 'なる', 'する', 'やる', '下りる', 'つまみ出す', 'れる', 'する', 'いう', '出る', '来る', 'ぶら下げる', '向ける', '出す', '出す', '上る', '来る', '困る', 'いう', '撚る', '眺める', 'おる', '置く', 'やる', '這入る', 'しまう', '聞く', '見える', '抛り出す', '極める', 'する', '合せる', '帰る', '這入る', '出る', '来る', '思う', 'いる', '見せる', 'いる', 'いう', '覗く', '見る', 'する', 'いる', 'ある', '読みかける', 'ある', 'たらす', 'いる', '帯びる', 'あらわす', 'いる', '食う', '食う', '飲む', '飲む', 'ひろげる', '読む', 'なる', '垂らす', '繰り返す', '考える', 'ある', '生れる', 'なる', '限る', '寝る', 'いる', '勤まる', '出来る', '云う', 'せる', '来る', '鳴らす', 'いる', '住み込む', '行く', '跳ねる', '付ける', 'られる', 'する', 'くれる', 'する', 'れる', '至る', 'つける', 'くれる', '分る', '出来る', '得る', '入れる', 'くれる', 'いる', 'つとめる', '読む', '乗る', 'する', '乗る', '構う', 'やむを得る', '寝る', 'する', '入る', 'もぐり込む', 'ねる', 'なる', '入る', '寝る', '見出す', '割り込む', '醒ます', 'なる', '来る', '来る', 'いう', '泣く', '出す', 'さます', '飛び出す', 'くる', '叩く', 'れる', 'する', 'する', 'する', 'する', '得る', 'なる', 'する', '至る', 'する', 'かぶせる', '抛り出す', '押し込む', 'する', 'する', '追い廻す', '加える', '磨く', '怒る', '入れる', 'える', 'いる', 'する', '逢う', '言う', '産まれる', '持つ', '行く', '棄てる', '来たす', '流す', '話す', 'する', '戦う', 'する', 'なる', 'いう', 'れる', '思う', '隣る', '解す', 'いる', 'いう', 'する', 'いる', '見付ける', '食う', 'ある', 'なる', 'いる', '守る', '訴える', '見える', '見付ける', 'せる', '頼む', '食う', '得る', '奪う', 'すます', 'いる', 'おりる', '持つ', 'いる', '住む', 'いる', '送る', 'れる', '栄える', '待つ', '思い出す', 'する', 'する', 'いう', '勝れる', '出来る', '出す', 'がる', 'やる', 'する', '出す', 'かく', 'よる', '凝る', '習う', 'ある', '鳴らす', 'する', 'なる', 'おる', 'やる', '出す', 'うたう', 'つける', 'られる', 'いる', 'する', '繰返す', 'いる', '吹き出す', 'なる', '住み込む', 'ある', '提げる', '帰る', '来る', '買う', '来る', '思う', 'やめる', '見える', 'する', 'かく', 'いる', '上げる', '見る', 'かく', 'つく', '思う', 'やる', 'いる', '来る', 'する', 'いる', '聞く', 'かける', '見る', 'とる', '見る', '感ずる', '見る', 'かける', 'かける', '言う', 'ある', 'かく', '写す', 'あり', 'あり', '飛ぶ', 'あり', '走る', 'あり', 'あり', 'あり', 'かこう', '思う', 'する', 'いう', 'ある', '知る', 'する', 'いる', '嘲る', '見える', '出る', 'する', 'いる', '出る', '来る', 'やる', 'いる', '覚める', 'する', 'いる', 'あける', '見る', '極め込む', 'いる', '見る', 'する', '禁じる', '得る', 'せる', 'れる', 'する', 'ある', '寝る', 'する', '執る', 'いる', '動く', '思う', 'する', 'おる', 'かく', '上げる', '彩る', 'いる', 'する', 'いう', 'いう', '勝る', '思う', 'おる', '描き出す', 'れる', 'ある', '思う', 'れる', '違う', '含める', '有す', 'いる', '見る', '疑う', '思う', '見る', 'さる', '交ぜる', 'いう', '評す', '寝る', 'いる', 'する', '見える', '寝る', 'いる', 'する', '思う', 'する', '得る', '動く', 'におう', 'やる', '思う', 'いる', 'する', '出来る', 'なる', 'やむをえる', 'する', 'する', '押し出す', 'する', 'なる', '見る', 'する', 'いる', '打つ', '行く', '足す', '思う', '這い出す', '掻く', '交ぜる', 'する', '怒鳴る', '罵る', '知る', 'する', '知る', '思う', '乗る', 'する', '甘んじる', '受ける', 'なる', 'する', 'くれる', '立つ', 'する', 'いる', '出る', '来る', '窘める', 'やる', 'する', '分る', 'する', '悲しむ', 'する', 'ある', 'ある', 'する', '当る', '騒ぐ', '出来る', '出る', '養う', 'する', '運ぶ', 'する', '嗅ぐ', 'くる', '押し倒す', '寝る', 'いる', '近づく', '心付く', '心付く', 'する', '眠る', 'いる', '睡る', 'れる', '驚く', '得る', '過ぎる', '抛る', 'かける', 'する', '見える', '燃える', '思う', 'れる', '云う', '有す', 'いる', 'ある', '忘れる', 'する', '眺める', 'いる', '出る', '誘う', '落ちる', '開く', 'する', 'いる', 'する', '輝く', 'いる', 'する', '射る', 'あつめる', '云う', 'する', '思う', 'する', '籠る', 'いる', '抱く', 'する', '思う', '装う', '答える', 'する', 'おる', 'せる', '聞く', 'あきれる', '住む', 'でる', 'いる', '思う', '瘠せる', 'てる', '吹きかける', 'する', '思う', 'れる', '切る', 'する', 'いる', '見る', '食う', 'てる', '暮す', 'いる', '云う', '聞く', '得る', '知る', 'する', 'なる', 'いる', '聞く', '起す', '生じる', '試す', 'みる', '思う', 'する', '見る', 'いる', '見る', 'いる', '食える', '見える', '行く', 'する', '廻る', 'いる', 'くる', '付く', '来る', '見る', 'たつ', '見違える', '太れる', '願う', 'する', '住む', 'いる', '思う', 'れる', 'たつ', '足す', 'なる', '障る', 'そぐ', 'する', '付く', 'せる', '立ち去る', 'なる', 'する', 'する', '吐く', 'する', '聞く', '寝転ぶ', 'する', 'いる', '話す', '繰り返す', '向う', 'する', 'とる', 'ある', 'する', 'いる', '至る', 'なる', 'する', 'いる', '接す', '行く', 'とる', '思う', '捕る', '答える', '張る', 'いる', '震わせる', '笑う', 'する', '足りる', 'ある', 'する', '鳴らす', 'する', 'いる', '御する', 'なる', '飲み込む', 'する', 'する', 'しゃべる', 'す', '濁す', '定める', 'とる', 'そそのかす', '見る', 'する', '来る', 'とる', 'つづける', '引き受ける', 'いる', '合う', 'いる', '向う', '逢う', '打つ', 'ぱちつかせる', '云う', '持つ', '這う', '込む', 'いる', '喰う', '飛び出す', '思う', 'する', '見せる', 'いる', 'ぐれる', 'える', '追っかける', '追い込む', '思う', 'やる', 'する', 'やる', 'いざる', 'なる', 'こく', 'がる', '臭う', 'いる', '見る', '至る', '感ずる', '揚げる', 'なでる', '廻る', 'する', 'する', '付ける', 'やる', '思う', '睨む', 'れる', '捕る', '食う', '肥る', 'とる', 'する', 'する', 'いう', 'える', 'つまる', '稼ぐ', 'とる', 'ふてる', 'える', 'いる', 'とる', '取り上げる', 'やる', 'がる', '持つ', '行く', 'あがる', '捕る', '分る', 'くれる', '儲ける', 'いやがる', '食わせる', 'ある', 'する', 'わかる', '見える', '怒る', '逆立てる', 'いる', 'なる', 'する', '帰る', 'とる', 'する', 'なる', 'あるく', 'する', '食う', '寝る', 'いる', 'いる', 'なる', '見える', 'する', 'なる', '知れる', 'いう', '至る', '悟る', '見える', 'かきつける', '云う', '始める', '出逢う', 'する', '云う', 'なる', 'する', 'いる', '云う', '好く', 'れる', 'する', '云う', 'する', 'する', 'られる', '云う', 'いう', 'する', 'する', 'する', 'する', 'れる', '進む', 'やる', '於く', 'する', '気づかう', 'する', '思う', '済す', 'いる', '飲む', '這入る', 'なる', '得る', '立つ', 'なる', '得る', 'する', 'かねる', 'いる', 'する', 'ある', 'する', '抜ける', '置く', '書く', 'いる', 'かく', 'なる', '思う', '抛る', '置く', 'する', '懸ける', 'くれる', '見る', 'なる', '見る', 'なる', '暮らす', 'いる', '明ける', '覚める', 'なる', 'しまう', '背負う', 'ある', 'いる', 'いる', '見える', 'なれる', '見る', 'する', 'つく', '切る', 'する', '力む', 'いる', 'する', 'つく', '分る', 'する', 'する', 'する', '思う', 'れる', '出す', 'する', '笑う', '掻く', 'わる', 'れる', '気がつく', 'する', 'いる', 'する', '信じる', '思う', '聞く', '記す', 'する', '得る', '吹く', '散らす', '担ぐ', 'する', 'いる', '伝える', 'する', 'なる', 'く', '言う', '受ける', 'する', 'ある', 'する', 'なる', '書く', 'やめる', 'する', 'する', 'せる', '言う', '話す', '繰り返す', 'する', 'おる', 'ある', 'いる', '話す', '出る', '死ぬ', '襲う', '評す', '坐る', 'いる', '知る', '云う', 'いう', '読む', 'おる', '知る', 'する', '問いかける', 'いう', '読む', 'いる', 'する', '欺く', 'あらわれる', '困る', '感じる', '動じる', '間違える', '云う', ...]
33. サ変名詞
サ変接続の名詞をすべて抽出せよ.
結果
noun = []
for sentnese in result_mecab:
for morphene in sentnese:
if morphene['base'] != '*': # '--'が検出される対策
if morphene['pos'] == '名詞' and morphene['pos1'] == 'サ変接続':
noun.append(morphene['base'])
noun
Out[30]:
['見当', '記憶', '話', '装飾', '突起', '運転', '記憶', '分別', '決心', '我慢', '餓死', '訪問', '始末', '猶予', '遭遇', '我慢', '記憶', '返報', '勉強', '勉強', '昼寝', '珍重', '昼寝', '経験', '供', '供', '供', '供', '同居', '観察', '断言', '同衾', '供', '迫害', '尊敬', '生活', '剿滅', '議論', '所有', '憤慨', '観念', '御馳走', '掠奪', '代言', '我儘', '我儘', '失敗', '話', '投書', '関', '決心', '昼寝', '鑑定', '話', '述懐', '想像', '写生', '感心', '昼寝', '失笑', '揶揄', '写生', '欠伸', '自白', '彩色', '写生', '判然', '心中', '感服', '小便', '猶予', '失敬', '欠伸', '予定', '失望', '漫罵', '小便', '増長', '増長', '我儘', '我慢', '報道', '供', '昼寝', '退屈', '加減', '一睡', '運動', '嘆賞', '佇立', '記憶', '珍重', '身動き', '挨拶', '鼓動', '軽蔑', '察', '肥満', '御馳走', '乱暴', '教育', '交際', '同盟', '敬遠', '軽侮', '問答', '御馳走', '邂逅', '邂逅', '相当', '雑談', '自慢', '質問', '発達', '比較', '覚悟', '自慢', '感心', '謹聴', '呼吸', '弁護', '思案', '吶喊', '掃除', '感心', '喝采', '質問', '反対', '呈出', '大息', '加減', '決心', '御馳走', '御馳走', '要心', '放蕩', '放蕩', '放蕩', '放蕩', '放蕩', '放蕩', '自任', '放蕩', '卒業', '関', '料理', '首肯', '批評', '関', '訪問', '忠告', '写生', '写生', '変化', '写生', '主張', '発達', '感心', '感服', '捏造', '話', '喜悦', '対話', '想像', '加減', '顧慮', '挑撥', '忠告', '著述', '出版', '記憶', '演説', '傍聴', '傾聴', '話', '注意', '写生', '相違', '降参', '写生', '注意', '消沈', '紅葉', '昼寝', '供', '感心', '御馳走', '感服', '動揺', '感服', '苦心', '相違', '判然', '苦心', '属', '浴', '軽侮', '評価', '製造', '差別', '応用', '按排', '加減', '判然', '区別', '存', '向上', '識別', '発達', '同情', '達観', '達観', '征', '行列', '勉強', '一見', '意味', '尊敬', '存在', '外出', '卒業', '合点', '談話', '御無沙汰', '活動', '左右', '自慢', '合奏', '挺', '伴奏', '挺', '勘定', '往来', '恋着', '諷刺', '感心', '失恋', '関係', '心配', '返事', '加減', '散歩', '陥落', '決心', '来着', '失恋', '失敬', '頂戴', '頂戴', '間食', '留守', '失敬', '頂戴', '頂戴', '失敬', '仕付', '吹聴', '供', '分配', 'らく', '附加', '見物', '歩行', '拝見', '我儘', '承知', '返事', '病気', '注意', '散歩', '旅', '下落', '成道', '慰安', '冷笑', '見当', '発揮', '属', '保存', '晩酌', '攻撃', '喧嘩', '是非', '忠告', '因', '本復', '按腹', '療治', '根治', '按摩', '治療', '位置', '顛倒', '根治', '昏睡', '閉口', '是非', '呼吸', '運動', '廃', '変化', '持', '心配', '病気', '議論', '研究', '反駁', '学問', '弁解', '見当', '挨拶', '晩酌', '影響', '遠征', '供', '経験', '我儘', '散歩', '苦心', '往来', '歩行', '探険', '裁縫', '探険', '話', '膠着', '白状', 'ねばねば', '供', '感得', '熟視', '供', '催促', '焦慮', '始末', '煩悶', '逢着', '直覚', '適', '予知', '発明', '吸収', '供', '相違', '煩悶', '関係', '左右', '運動', '現前', '供', '同情', '実行', '見聞', '白黒', '閉口', '御馳走', '容赦', '通過', '経験', '失敗', '訪問', '相違', '訪問', '話', '晴々', '心配', '苦労', '影響', '加減', '加減', '形容', '反射', '微動', '感心', '属', '挨拶', '尊敬', '返事', '化粧', '供', '震動', '自慢', '返事', 'かさん', 'かさん', 'かさん', '混雑', 'かさん', '降参', '心配', '回復', '欠伸', '恐怖', '軽侮', '説明', '挨拶', '決心', '挨拶', '罵詈', '了解', '意味', '世話', '意味', '何とか', '参考', '答弁', '震動', '合図', '応対', '相当', '奉呈', '辟易', '注文', '自慢', '始末', '挨拶', '承知', '御馳走', '紹介', '対話', '紹介', '是非', '料理', '料理', '意味', '料理', '洋行', '洋行', '感服', '洋行', '拝聴', '話', '形容', '相談', '謝罪', '同情', '訂正', '料理', '洋行', '思案', '料理', '相談', '相談', '戦争', '通信', '払底', '賛成', '返事', '頓着', '敬服', '同情', '承知', '朗読', '組織', '会合', '研究', '朗読', '創作', '心中', '自認', '朗読', '同情', '発揮', '芝居', '成功', '心中', '登場', '質問', '呈出', '研究', '隷属', '起臥', '一定', '朗読', '朗読', '心配', '下宿', '朗読', '探知', '傍聴', '散会', '成功', '朗読', '失敗', '想像', '奮発', '入会', '尽力', 'だかん', '賛助', '署名', '捺印', '賛成', '是非', '記入', '賛成', '連判', '入籍', '返事', '失敬', '消光', '休心', '参堂', '計画', '推察', '同意', '御馳走', '処', '払底', '存', '微笑', '歓迎', '連発', '出勤', '拝趨', '宥恕', '返事', '払底', '承知', '是非', '捕獲', '存', '苦心', '苦心', '感謝', '料理', '流行', '諒察', '諒察', '招待', '使用', '記憶', '料理', '御馳走', '消化', '機能', '両立', '研究', '相当', '保持', '案出', '入浴', '入浴', '浴', '嘔吐', '掃除', '廓清', '吐出', '愚考', '相違', '増加', '征', '戦勝', '是非', '入浴', '嘔吐', '研究', '到着', '心痛', '考究', '廃絶', '発見', '応用', '存', '著述', '渉猟', '発見', '存', '成功', '中絶', '嘔吐', '再興', '発見', '報道', '承知', '御馳走', '発見', '存', '悪戯', '訪問', '留守', '病気', '厚遇', '返事', '診察', '病気', '何とか', '感心', '何とか', '何とか', '病気', '油断', '感動', '形容', '含嗽', '想像', '酷評', '感服', '使用', '病気', '相違', '翻訳', '翻訳', '借金', '催促', '話', '批評', '意味', '返礼', '返礼', '降参', '降参', '承知', '降参', '恐縮', '差別', '感服', '失礼', '失敬', '拝聴', '退治', '挨拶', '紹介', '是非', '紹介', '話', '講釈', '講釈', '苦心', '朗読', '朗読', '御馳走', '招待', '是非', '臨席', '是非', '出席', '喝采', '復讐', '経験', '応用', '経験', '経験', '息', '経験', '記憶', '参堂', '是非', '在宿', '供', '外出', '注意', '感動', '著述', '戦争', '辛苦', '戦争', '負傷', '列挙', '返事', '散歩', '戦死', '老衰', '往来', '真似', '按排', '想像', '約束', '処', '面晤', '安心', '意識', '存在', '感応', '経験', '刻', '合奏', '合奏', '病気', '承知', '発熱', '謹聴', '睡眠', '奏', '診断', '廃', '冷笑', '病気', 'ストライキ', '返事', '返事', '決心', '経験', '感応', '写生', '病気', '追窮', '病気', '全快', '沈思', '暗合', '刻', '参考', '談判', '交渉', '相当', '予約', '手続き', '手続き', '手続き', '見物', '降参', '萎縮', '註釈', '苦労', '供', '世話', '脱', '服薬', '全快', '相談', '当番', '返事', '安心', '全快', '約束', '履行', '覚悟', '計画', '弁解', '解釈', '失敗', '化粧', '着', '反映', '希望', '希望', '満足', '奮発', '注文', '外出', '頓服', '心配', '厳命', '吶喊', '妨害', '理解', 'ぞくぞく', '病気', '全快', '意見', '満足', '運動', '我儘', '承知', '了解', '了解', '話', '軽蔑', '沈黙', '弄', '競争', '談笑', '罵倒', '動作', '談話', '注目', '留守', '留守', '回向', '診察', '弁解', '我慢', '早死', 'いたずら', '属', '類似', '経験', '説明', '談話', '身震い', '回向', '外出', '失恋', '失恋', '放逐', '呈出', '起臥', '感謝', '敬服', '躊躇', '虐待', '鈍', '依頼', '同情', '忘却', '接近', '糾合', '進化', '軽蔑', '変心', '弄', '罵詈', '融通', '脱化', '評', '挨拶', '交際', '動作', '注目', '賛', '録', '研究', '一致', '朗読', '併行', '返事', '発見', '粘着', '感動', '断念', '割愛', '抹殺', '筆誅', '研究', '廃', '苦心', '落第', '意味', '案内', '心配', '遠慮', '苦労', '撰', '見当', '卒業', '研究', '勉強', '変化', '自慢', '相当', '失敬', '返事', '接待', '不足', '油断', '退屈', '挨拶', '頓着', '加減', '供', '感嘆', '損害', '供', '解釈', '不足', '道楽', '説教', '油断', '返事', '道楽', '加減', '削減', '同情', 'お待ち', '予言', '返答', '窮', '評', 'にこにこ', '学問', '弁護', '加勢', '定義', '質問', '説明', '説明', '処置', '加減', '挨拶', '返事', '納得', '留守', '沈黙', '要求', '演説', '稽古', '演説', '専断', '乾燥', '脱俗', '傾聴', '傾聴', '結論', '注文', '洗濯', '挨拶', '頂戴', '拍手', '請求', '稽古', '批評', '自殺', '研究', '肉食', '釘付け', '処刑', '退屈', '欠伸', '返事', '講釈', '判然', '処刑', '絞殺', '絞殺', '朗読', '云々', '賛成', '加担', '絞殺', '想像', '執行', '洗濯', '成立', '一致', '仮定', '仮定', '承知', '応用', '平均', '演説', '研究', '遠慮', '架', '往生', '工夫', '断念', '演説', '作用', '論及', '欠伸', '陥落', '失策', '報道', '区別', '関係', '再来', '保存', '弁護', '展覧', '見物', '質問', '返事', '心配', '翻訳', '同情', '見物', '我慢', '調和', '調和', '感心', '報知', '沈黙', '所有', '工事', '左右', '対立', '形容', '謙遜', '敬意', '挨拶', '鼎坐', '話', '認識', '尊敬', '話', '存在', '恐縮', '尊敬', '融通', '世話', '尊敬', '畏服', '生活', '予期', '返事', '失礼', '世話', '噂', 'おまけ', '辞儀', '心配', '安心', '存在', '関係', '承知', '恋着', '見当', '奏', '見物', ...]
サ変接続だけで絞ると
{'surface': '——', 'base': '*', 'pos': '名詞', 'pos1': 'サ変接続'}
(ダッシュ?)が検知されるが、名詞じゃなくて記号じゃない?と思ったので除外。
34. 「AのB」
2つの名詞が「の」で連結されている名詞句を抽出せよ.
結果
noun_phrases = []
for sentense in result_mecab:
for i in range(len(sentense)):
if sentense[i]['surface'] == 'の' and sentense[i - 1]['pos'] == '名詞' and sentense[i + 1]['pos'] == '名詞':
noun_phrases.append(sentense[i - 1]['surface'] + sentense[i]['surface'] + sentense[i + 1]['surface'])
noun_phrases
Out[121]:
['彼の掌', '掌の上', '書生の顔', 'はずの顔', '顔の真中', '穴の中', '書生の掌', '掌の裏', '何の事', '肝心の母親', '藁の上', '笹原の中', '池の前', '池の上', '一樹の蔭', '垣根の穴', '隣家の三', '時の通路', '一刻の猶予', '家の内', '彼の書生', '以外の人間', '前の書生', 'おさんの隙', 'おさんの三', '胸の痞', '家の主人', '主人の方', '鼻の下', '吾輩の顔', '自分の住', '吾輩の主人', '家のもの', 'うちのもの', '彼の書斎', '本の上', '皮膚の色', '本の上', '彼の毎夜', '以外のもの', '主人の傍', '彼の膝', '膝の上', '経験の上', '飯櫃の上', '炬燵の上', 'ここのうち', '供の寝床', '彼等の中間', '供の一', '例の神経', '性の主人', '次の部屋', '自分の勝手', '吾輩の方', '台所の板の間', '吾輩の尊敬', '向の白', '玉のよう', 'そこの家', '家の書生', '裏の池', '親子の愛', 'もっともの議論', '刺の頭', '鰡の臍', '彼等のため', '軍人の家', '代言の主人', '教師の家', '猫の時節', '吾輩の家', '家の主人', 'だらけの英文', '胃弱の癖', '後架の中', '平の宗', '月の月給', '当分の間', '下のよう', '今更のよう', '主人の述懐', '彼の友', '金縁の眼鏡', '主人の顔', '内の想像', '訳のもの', '利の大家', '金縁の裏', '吾輩の後ろ', '彼の友', '吾輩の輪廓', '顔のあたり', '上乗の出来', '顔の造作', '他の猫', '不器量の吾輩', '吾輩の主人', '斯産の猫', '斑入りの皮膚', '主人の彩色', '種の色', '身内の筋肉', '主人の予定', '座敷の中', '悪口の言いよう', '人の気', '彼の背中', 'こっちの便利', '自己の力量', '人間の不徳', '吾輩の家', '家の裏', '浩然の気', '小春の穏', '日の二', '茶の木の根', '西側の杉', '垣のそば', '他の庭', '純粋の黒', '彼の皮膚', '皮膚の上', '毛の間', '中の大王', '吾輩の倍', '嘆賞の念', '好奇の心', '彼の前', '小春の風', '垣の上', '梧桐の枝', '枚の葉', '枯菊の茂み', '真丸の眼', '人間の珍重', '双眸の奥', '吾輩の矮小', '額の上', '声の底', '吾輩の心臓', 'ここの教師', '教師の家', '良家の猫', '車屋の黒', '車屋の黒', '主義の的', '彼の名', '軽侮の念', '左の問答', '車屋の方', 'うちの主人', '車屋の猫', 'どこの国', '己の後', '教師の方', '車屋の黒', '相当の気焔', '畠の中', '黒の比較', '彼の鼻', '鼻の先', '彼の気焔', '自分の手柄', '墻壁の欠', '彼の答', '鼠の百', '掃除の時', 'うちの亭主', '石灰の袋', '椽の下', 'たちの野郎', '溝の中', '去年の臭気', '鼻の頭', '反対の結果', 'うちの亭主', '己の御蔭', '無学の黒', '背中の毛', '黒の子分', '以外の御馳走', '教師の家', '教師のよう', '吾輩の主人', '日の日記', '今日の会', '質の人', '人の妻君', '連中のうち', '吾輩の水彩', '屋の酒', '一廉の水彩', '吾輩の水彩', '野暮の方', '芸者の妻君', '愚劣の考', '自己の水彩', '知の明', '日の日記', '元の通り', '夢の裡', '画の未練', '夫子の所', '例の金縁', '眼鏡の美学', '君の忠告', '物の形', '色の精細', '今日のよう', '日記の事', '喜悦の体', '彼の今日', '今日の日記', '唯一の楽', '主人の情', '下のよう', '彼の一世', '会の演説', '時の傍聴', 'ハリソンの歴史', '小説の中', '僕の向う', '性の主人', '化の皮', '別の本', '金縁の眼鏡', '車屋の黒', '寺院の壁', '壁のしみ', '車屋の黒', '彼の光沢', '彼の眼', '吾輩の注意', '彼の元気', '元気の消沈', '例の茶園', '最後の日', 'たちの最後', '屋の天秤棒', '赤松の間', '段の紅', '紅白の山茶花', '半の南', '向の椽側', '冬の日脚', '吾輩の昼寝', '昼寝の時間', '教師の家', '無名の猫', '主人の許', '枚の絵', '彼の交友', '一の動物', '例の書斎', '窓の方', '鼻の先', '端書の色', '動物の正体', '自分の肖像', '主人のよう', '猫の中', '他の猫', '属の言語', '天の恵', '軽侮の口調', '人間の糟', '馬の糞', 'がちの事', '固有の特色', '猫の社会', '界の語', '髯の張り', '耳の立ち', '尻尾の垂れ', '無粋の数', '人間の眼', '吾輩の性質', '相貌の末', '猫の事', '吾輩の主人', '愛の第一義', '吾輩の肖像', '眼の前', '熊の画', '主人の膝', '膝の上', '二の絵', '舶来の猫', '内の一疋', '机の角', '西洋の猫', '日本の墨', '右の側', '猫の春', '猫の年', '三の端書', '吾輩の顔', '尊敬の意', '吾輩の御蔭', '門の格子', '屋の梅', '時のほか', '主人の膝', '玄関の方', '年賀の客', '酒の相手', '牡蠣の根性', '主人の所', '主人のよう', '去年の暮', '羽織の紐', 'どっちの方角', '木綿の紋付', '羽織の袖口', '椎茸の傘', '吾輩の頭', '車屋の黒', 'ピヤノの伴奏', '巌のよう', '実のところ', '大抵の婦人', '婦人の七', '失恋のため', '胃弱のせい', '明治の歴史', '君の女', '口取の蒲鉾', '所の令嬢', '御存じの方', '旅順の陥落', '女連の身元', '木綿の紋付', '兄の紀', '結城紬の綿', '針の目', '主人の服装', '失恋のため', '蒲鉾の残り', '一般の猫', '以後の猫', 'グレーの金魚', '車屋の黒', '蒲鉾の一切', '細君の留守', '前のこと', '麭の幾分', '卓の上', '壺の中', '匙の砂糖', '自分の皿', '皿の上', '分量の砂糖', '自分の皿', '皿の上', '皿の上', '両人の皿', '盛の砂糖', '壺の中', '匙の砂糖', '壺の中', '櫃の上', '櫃の上', '餅の切れ', '最後の一', '椀の中', '主人の威光', '汁の中', '餅の死骸', '袋戸の奥', '卓の上', '質のもの', '独言のよう', '対句のよう', 'ほかの病気', '本当のところ', '細君の肩', '主人の前', '膝の上', '書斎の椽側', '障子の隙', '人の本', '机の上', '下のよう', '池の端', '池の端', '端の待合', '待合の前', '裾模様の春着', 'うちの猫', '丹の角', '撫肩の恰好', '薄紫の衣服', '懐手のまま', '人間の心理', '主人の今', '今の心', '哲人の遺書', '一道の慰安', '無用のもの', '主人のよう', '自己の面目', '真正の日記', '胃の具合', '人間の日記', '日記の本', '彼の説', '胃病の源', '胃病の源', '大抵の胃病', '竜馬のよう', '臓腑の位置', '綿のよう', '腸の中', '胃の働き', '者の迷亭', '何等の功', '年来の胃弱', '限りの方法', '杯の正宗', '主人の心', '吾輩の眼球', '眼球のよう', '日記の上', '一種の見地', 'すべての病気', '父祖の罪悪', '自己の罪悪', '罪悪の結果', 'うちの主人', '自己の面目', '君の説', '自分の胃弱', '違いの挨拶', '胃弱の病人', '大抵のもの', '車屋の黒', '黒のよう', '横丁の肴', '新道の二絃琴', '二絃琴の師匠', '師匠の所', '所の三', '毛のよう', '経験のため', '大抵のもの', '教師の家', '大の贅沢', '口の贅沢', '文章の贅沢', '中の人間', '人間の名', '自分の苦心', '店先の看板', '屋の看板', 'マーカスの上', '友人の迷惑', '中の人間', '人間の名前', '吾輩のよう', '贅沢の結果', '通りの餅', '通りの色', '椀の底', '餅の上皮', '釜の底', '底の飯', '時のよう', 'ものの味', '一の真理', 'すべての動物', '底の様子', '供の足音', '雑煮の事', '椀の中', '全体の重量', '椀の底', '餅の角', '吾輩の主人', '煩悶の際', '二の真理', 'すべての動物', '事物の適', '餅の肉', '供の唱歌', '煩悶の極', '何等の功', '何等の関係', '前足の助け', '右の方', '口の周囲', '訳のもの', '餅の中', '餅の魔', '前足の運動', '三の真理', 'ところのもの', '餅の魔', '縮緬の紋付', '人間の同情', '在来の通り', '時のよう', '餅の中', 'すべての安楽', '四の真理', '新道の二絃琴', 'さんの所', '所の三', '物の情け', '三の険', '異性の朋友', '朋友の許', '女性の影響', '垣の隙', '曲線の美', '端正の態度', '吾輩の傍', '教師の家', '去年の暮', 'あなたのうち', '欣羨の意', '供のよう', '鼻の孔', 'あなたの所', '間の姫小松', '障子の内', '祐筆の妹', 'かさんの甥', '甥の娘', '祐筆の妹', '様の妹', '祐筆の妹', 'かさんの甥', '甥の娘', 'かさんの甥', '甥の娘', '様の何', '祐筆の妹', 'かさんの甥', '甥の娘', '理詰の虚言', '障子の中', '二絃琴の音', 'さんの声', '雑煮の元気', '例の茶園', '建仁寺の崩れ', '車屋の黒', '枯菊の上', '黒の性質', '教師の飯', '吾輩の有名', '子の向う', '罵詈の言語', '子の何とか', '参考のため', '手持無沙汰の体', '黒のうち', 'うちの神', '黒の畜生', '初春の長閑', '彼の足', '足の下', '鮭の骨', 'しゃけの一切', '車屋の黒', '腕まくりの代り', '右の前足', '肩の辺', '例の神', 'さんの大声', '注文の声', '四隣の寂寞', '挨拶のしよう', '自分のため', '本当の御馳走', '吾輩の頭', 'からだの泥', '西川の牛', '座敷の中', '主人の笑い声', '主人の傍', '木綿の紋付', '紋付の羽織', '小倉の袴', '体の男', '主人の手', '塗りの巻煙草', '客の名前', '君の友人', '主客の対話', '君の事', '客の前', '方の事', '膝の上', '吾輩の頭', 'ボイの方', '鴨のロース', '小牛のチャップ', '私の方', 'つもりのところ', 'なめくじのソップ', '蛙のシチュ', 'シチュの形容', '花瓶の水仙', '残念の気色', '何の気', '客の謝罪', '通りの西洋', '戦争の通信', 'トチメンボーの材料', '横浜の十', '当分の間', '私の方', '派の俳人', '敬服の至り', '飯の時刻', '吾輩の咽喉', '主客の耳', '承知の通り', '方面の研究', '去年の暮', '文章の類', '古人の作', '同人の創作', '古人の作', '白楽天の琵琶', '行のよう', '蕪村の春風', '曲の種類', '近松の心中', '浄瑠璃の近松', '家の近松', '吾輩の頭', '主人の顔色', '作中の人物', '時代の人', '顔の横手', '登場の人物', '明瞭の智識', '娼家の下婢', '茶屋の下女', '部屋の助役', '仲居の性格', '一定の場所', '男の人間', '主人の顔', '君のほか', '家の気', '何の役割', '会場の窓', '入会の上', '的の主人', '員の名簿', '紫の風呂敷', '版の帳面', '署名の上', '主人の膝', '膝の前', '連中の名', '念の体', '賛成の意', '謀叛の連判', '知名の学者', '無上の光栄', '返事の勢', '畳の上', '皿の中', '中のカステラ', '今朝の雑煮', '子の胃', '胃の中', '皿のカステラ', '机の上', '先生の手紙', '新年の御慶', '先生の手紙', '大兄の消極', '未曾有の新年', '程の多忙', '男の事', '一刻のひま', 'トチメンボーの御馳走', '払底の為', '例の通り', '男爵の歌留多', '協会の新年', '会の連発', '当分の間', '拝趨の礼', '光来の節', '何の珍味', '払底の為', '孔雀の舌', '承知の通り', '肉の分量', '小指の半ば', '大兄の胃', '羽の孔雀', '普通の鳥屋', '感謝の意', '孔雀の舌', '舌の料理', '全盛の砌', '風流の極度', '世紀の頃', '饗宴の図', '孔雀の料理', '近頃の如く', '胃弱の標準', '家の説', '方丈の食', '胃の人', '大兄の如く', '多量の滋味', '一の秘法', '種の方法', '廓清の功', 'かくの如く', '此等の事', '世紀の今日', '交通の頻繁', '宴会の増加', '国の国民', '嘔吐の術', '西洋の事情', '明治の社会', '諸家の著述', '発見の端緒', '残念の至', '孔雀の舌', '舌の御馳走', '小生の都合', '大兄の為', '白磁の水仙', '軸の梅', '障子の中', '鉢の葉蘭', '葉蘭の影', '人間の取扱', '自分の境遇', '猫の方', '猫の方', '私の脈', '膝の上', '猫の病気', '大事の猫', '吾輩のうち', '様の何とか', '様の何とか', '何とかの何とか', '何とかの下女', '頃のよう', '国事の秘密', '時のよう', '表通りの教師', '教師の所', '吾輩の主人', '何の呪い', '相応の作法', '毛の病気', 'あいつの御蔭', '書斎の中', '沈吟の体', 'さんの所', '無名氏の作', '僕の翻訳', '読本の中', '孔雀の舌', '舌の讐', '君のよう', '借金の催促', '近来の名文', '君の審美', '眼の本家', '本家のよう', '師の遺誡', 'いその巨人', '金縁の眼鏡', '眼鏡の奥', '平等の水彩', '画の比', '感服の至り', 'トチメンボーの亡魂', '君の紹介', '迷惑の事', '自分の姓名', '姓名のこと', '初対面の人', '自分の名前', '名前の講釈', '唐皮の煙草', '腹の底', '腹の底', '鼻の孔', '咽喉の出口', '知名の文士', '近松の世話物', '何の役', '孔雀の舌', 'トチメンボーの復讐', '行徳の俎', '行徳の俎', '教場の経験', '行徳の俎', '何の事', '床の方', '風呂の帰りがけ', '行徳の俎', '去年の暮', '行徳の俎', '先生の不思議', '暮の二', '例の東風', '参堂の上', 'ストーブの前', 'バリー・ペーンの滑稽', '静岡の母', '供のよう', 'いろいろの注意', '明治の文壇', '御国のため', 'お正月のよう', '僕の小学校', '時代の朋友', '今度の戦争', '母の手紙', '胃の具合', '町の方', '町の方', '坂の方', '頭の中', '土手の上', '例の松', '松の真下', '例の松', '鴻の台', '鴻の台', '松の下', '土手の上', '他の松', '往来の方', 'あすこの所', '昔の希', '宴会の席', '首縊りの真似', '台の上', '縄の結び目', '他のもの', '元の所', '寒月の顔', '羽織の紐', '下の幽冥', '一種の因果', '火鉢の灰', '昨年の暮', '暮の事', '向島の知人', '知人の家', '近来の快事', '博士の夫人', '私のそば', '譫語のうち', '私の名', '時のよう', '周囲の空気', '頭の中', '当人の迷惑', '飛花落葉の感慨', '総身の活気', '花川戸の方', '橋の上', '提灯の火', 'ビールの処', '遥かの川上', '川上の方', '私の名', '水の面', '気のせい', '私の名', '遠くの方', '川の底', '子の声', '自分の声', '子の声', '私の耳', '浪の下', '水の下', '欄干の上', '糸のよう', '自分の鼻', '鼻の頭', '水の中', '橋の真中', '後ろの間', '羽織の紐', '僕の経験', '教授の材料', '人間の感応', 'さんの病気', '門の内', '沈思の体', '迷亭の眼中', '去年の暮', '暮の事', '去年の暮', '前歯のうち', '御歳暮の代り', '今日の語り物', '摂津の三', '詰の談判', '相当の席', '正当の手続き', '鈴木の君代', '正当の手続き', '鈴木の君代', '玉のよう', '度の願', '身上の苦労', '供の世話', '薪水の労', '枚の堵', 'ものの胸中', '無限の感慨', '女の事', '今の内', '有為転変の理', '生者必滅の道', '夫の妻', '西洋の諺', '御存じの癖', '学校の卒業生', '計画の腰', '僕の英語', '妻のよう', '生者必滅の理', '細君の英語', '何の気', '書斎の開き戸', '自分の妻', '縮緬の羽織', '僕の舌', '呑のよう', '格別の事', '細君の厳命', '僕の前', '胃の中', '茶の間の柱時計', '時の音', '何の苦', '先生の名医', '夢のよう', '細君の意見', '僕の義理', '自分の義務', '君のよう', '独り言のよう', '障子の蔭', '細君の咳払い', '吾輩の主人', '主人の我儘', '今の話', '何の所得', '太平の逸民', '競争の念', '日常の談笑', '穴の動物', '気の毒の至り', '普通の半可通', '形の厭味', '人の談話', '子の様子', 'さんの庭口', '流れの雲', '庭の面', '元日の曙光', '人の気合', '泥足のまま', '座蒲団の真中', '子の事', '障子のうち', '人間の位牌', '信女の誉', '誉の字', '蒲団の上', 'さんの声', '下女の声', '座蒲団の上', '木彫の猫', '猫のよう', '人様の事', '表通りの教師', '教師のうち', 'うちの野良猫', '我慢のしどころ', '三毛のよう', '三毛のよう', '下女の考え', '下女の顔', '毛の代り', ...]
35. 名詞の連接
名詞の連接(連続して出現する名詞)を最長一致で抽出せよ.
nouns = []
for sentense in result_mecab:
for morphene in sentense:
if morphene['pos'] == '名詞':
noun.append(morphene['surface'])
else:
if len(noun) >= 2:
nouns.append(''.join(noun))
noun = []
# 文が名詞で終わる場合
if len(noun) >= 2:
nouns.append(''.join(noun))
noun = []
nouns
Out[154]:
['人間中', '一番獰悪', '時妙', '一毛', 'その後猫', '一度', 'ぷうぷうと煙', '邸内', '三毛', '書生以外', '四五遍', 'この間おさん', '三馬', '御台所', 'まま奥', '住家', '終日書斎', '勉強家', '勉強家', '勤勉家', '二三ページ', '主人以外', '限り吾輩', '朝主人', '一番心持', '二人', '一つ床', '一人', '最後大変', '——猫', '神経胃弱性', '物指', '尻ぺたをひどく', '言語同断', '家内総がかり', '筋向', '白君', '度毎', '白君', '先日玉', '四疋', '三日目', '四疋', '白君', '我等猫族', '家族的生活', '三毛君', '所有権', '我々同族間', '目刺', '一番先', '彼等人間', '我等', '吾人', '白君', '三毛君', 'いくら人間', '間違いだらけ', '後架先生', '宗盛', '宗盛', '月給日', '水彩絵具', '毎日毎日書斎', '人の', '自ら筆', '眼鏡越', '一室内', '以太利', '大家アンドレア・デル・サルト', '露華', '寒鴉', 'これ一幅', '活画', '翌日吾輩', '一分', '辛棒', '今吾輩', '今吾輩', '波斯産', 'ただ一種', '上不思議', '盲猫', '心中ひそか', 'いくらアンドレア・デル・サルト', '一分', 'あと大', '壊わし', '馬鹿野郎', '馬鹿野郎', '辛棒', '馬鹿野郎呼わり', '平生吾輩', '馬鹿野郎', '元来人間', 'みんな増長', '先どこ', '数倍', '十坪', '腹加減', '穏かな日', '二時頃', '昼飯後', '運動かたがた', '一本一本', '杉垣', '前後不覚', '庭内', '忍び入り', '黒猫', '柔毛', '出ずるよう', '猫中', '杉垣', '二三枚', 'ぐべき力', '険呑', '時吾輩', '言葉付', '誰だい', '乱暴猫', '同盟敬遠主義', '一体車屋', '大分強そう', 'おれなんざ', '茶畠', '箆棒め', 'あらら', 'その後吾輩', '車屋相当', '不徳事件', '日例', '茶畠', '何匹', '元来黒', '近付', '事彼', '手柄話', '欠所', '三四十', '二百', '一人', '何鼠', 'こん畜生', '泥溝', '奴め最後っ屁', '二三遍', '百年目', '考げ', '——一', '五銭', '壱円五十銭', 'おい人間', '胡魔化', '鼠以外', '水彩画', '十二月一日', '大分放蕩', '元来放蕩家', '放蕩家', '水彩画', '料理屋', '水彩画家', '水彩画', '通人論', '水彩画', '批評眼', '二日', '十二月四日', '水彩画', '通り下手', '水彩画', '水彩画家', '所謂通人', '水彩画', '翌日例', '金縁眼鏡', '美学者', '結果今日', '美学者', '美学者', 'アンドレア・デル・サルト事件', '情線', '滑稽的美感', '仏国革命史', '日本文学会', '演説会', '傍聴者', '百名', '皆熱心', '文学者', '歴史小説セオファーノ', '歴史小説', '女主人公', '鬼気人', '僕同様', '神経胃弱性', '差支', 'ただ化', '美学者', '時ゃ別', 'けらけら', '美学者', '美学者', '模様画', '君注意', '半分降参', 'その後跛', '眼脂', '一杯', '最後屁', '肴屋', '二三段', '三間半', '南向', '木枯', '毎日学校', '水彩画', '功能', '一枚', '絵端書', '年始状', '険呑', '絵端書', '絵端書', '吾輩猫属', 'いくら猫', '粗末簡便', '一列一体', '自家固有', '十人十色', '人間界', '鼻付', '張り具合', '立ち按排', '垂れ加減', '粋無粋', '同類相', 'いくら人間', '面構', '征露', '二年目', '大方熊', '絵端書', '四五疋', '春一日', '不思議そう', '絵端書', '乍恐縮', '伝声', '願上候', '明らさま', '眼付', '一個', '眼付', 'チリン', 'チリン', '大方来客', '肴屋', '梅公', '顔付', '寒月さん', 'さそう', '牡蠣的主人', '黒木綿', '紋付羽織', 'べら者', '五分', '寒月君', '一枚', '君歯', 'なんざ', '例の', '寒月君', '賞め', '近頃大分', '自慢そう', '賞め', '一昨夜', '合奏会', '寒月君', '三挺', '三挺', '二人', '元来主人', '枯木寒巌', '顔付', '七割弱', '諷刺的', '牡蠣的生涯', '吾輩猫', '寒月君', '女連れ', '寒月君', '半分前歯', 'なに二人', '余所余所', '寒月君', '黒木綿', '紋付羽織', '紀念', '二十年来着', '綿入', 'いくら結城紬', 'ふだん着', '余所ゆき', '寒月君', '普通一般', '桃川如燕以後', '偸ん', '吾等猫族', '留守中', '四五日前', '二人', '主人夫婦', '毎朝主人', '麺麭', '砂糖壺', '一匙', 'らく両人', '一杯', '一杯', '一杯', '一杯一杯一杯', '山盛', '一匙', '利己主義', '山盛', '甞め', '寒月君', '翌日食卓', '九時頃', '六切', '七切', '一切れ', '廻わし', 'あなた澱粉質', '大変功能', 'せんだってじゅう', '毎日毎日', 'こないだうち', '功能', '辛防', '五六分', '日記帳', '神田辺', 'さそう', '喜多床', '宝丹', '一人芸者', '源ちゃん昨夕', '旅鴉', '源ちゃん', '物外', '一日記', '暗室内', '我等猫属', '行屎送尿', '二三杯', '本色', '二三日朝飯', '功能', '是非香の物', 'すべて胃病', '源因', '一週間', '按腹揉療治', '普通の', '皆川流', '一二度', '安井息軒', '按摩術', '坂本竜馬', '癒ら', '昏睡病', '一度', '是非固形体', '一日牛乳', '横膈膜', '五六分', '横膈膜', '美学者', '功能', 'すべて駄目', '昨夜寒月', '三杯', '毎晩二三杯', '永持', '上日記', '大分研究', '見当違い', '虚栄心', '今朝雑煮', '昨夜寒月君', '肴屋', '三毛', '麺麭', 'ため沢庵', '二切', '小説家', '贅沢屋', '贅沢屋', '小説家', '日自分', '小説中', '目付よう', '巴理', '裁縫屋', 'Z.Marcus', '一人', '小説中', '一日巴理', '牡蠣的主人', '一辺', '奥座敷', '兎さん', '椀底', '一辺', '歯答え', '歯答え', '美学者迷亭先生', '尽未来際方', '際吾輩', '直覚的', '適不適', '極尻尾', '功能', '振り損', '立て損', '事これ', '辛防', '左右交', '一度', '後足二本', '顔中', '一つ所', '台所中あちら', '一生懸命餅', 'あら猫', '馬鹿野郎', '大分見聞', '通り四つ這', '眼付', '寒月君', '情け容赦', '奥座敷', '事気', '師匠さん', '三毛子', '三毛子', '美貌家', '一通り', '険突', '杉垣', '三毛子', 'さ加減', '静粛端正', '関ら', '天鵞毛', '三毛子さん三毛子さん', '三毛子', 'あら先生', '鈴がちゃらちゃらと', 'あら先生', '吾等猫属間', '三毛子', '三毛子', '先生先生', '師匠さん', 'たちゃらちゃら', 'ゃらちゃらちゃらちゃら続け様', '師匠さん', '大変あなた', '吾身', '三毛子', '咽喉仏', '師匠さん', '師匠さん', '御身分', '師匠さん', '三毛子', '全体何', '師匠さん', '師匠さん', '六十二', '六十二', '天璋院様', '先きの', '天璋院様', '天璋院様', '天璋院様', '天璋院様', '祐筆の', '先きの', 'ところ天璋院様', '天璋院様', '先きの', '師匠さん', '三毛', '三毛', '三毛子', '師匠さん', 'あなた大変色', '心配そう', '認むるや否や', 'いくら教師', '面ら', '人つけ', '黒君', '変元気', 'なんざあ年', '向う面め', '手め', '正月野郎', '正月野郎', 'まま無言', '神さん', '俗了', '一切れ二銭三厘', '泥だらけ', '感投詞', '二切', 'びった事', '黒君', '神さん', '西川さん', '西川さん', '一斤', '一斤', '牛肉注文', 'へん年', '一遍牛肉', '牛肉一斤', '四つ足', '一斤', '驚ろ', '真面目そう', '書生体', '春慶塗り', '巻煙草入れ', '越智東風君', '紹介致候水島寒月', '寒月君', '美学者迷亭君', '是非いっしょ', '西洋料理', '午飯', 'アンドレア・デル・サルト事件', '君何', '誂ら', '君仏蘭西', '英吉利', '天明調', '万葉調', '西洋料理', '——全体', '何迷亭', '客はさ', '好奇的', '感投詞', 'めんぼう', 'おいトチメンボー', '二人前', 'メンチボー', 'メンチボー', '西洋通', '気の毒様', '生憎様', 'メンチボー', '二人前', '二十銭銀貨', '料理番', '大変トチメンボー', '迷亭先生', '日本新聞', '意気込', '前め', '十五番', '生憎様', '気の毒そう', '内材料', '日本派', 'えさよう', '気の毒様', 'アハハハそれ', '自分一人', '二人', '橡面坊', '午飯', '大変空腹', '東風君', '文学美術', '朗読会', '毎月一回会合', '一回', '朗読会', '詩歌文章', '琵琶行', '春風馬堤曲', '心中物', '二人', '戯曲家', '藪睨み', '東風子', '一人', '嬢さん', '一回', '心中物', '東風子', '東風子', '朗読家', '法学士', '口髯', '心配そう', '東風子', '文芸家', '一回', '東風子', '東風子', '四五人下宿', '朗読会', '窓下', '耐ら', '一度', '驚ろいた事', '驚ろ', 'るい事', 'それ限り', '一回', '朗読会', '咽喉仏', '二回', '消極的', '賛助員', '大事そう', '小菊版', '現今知名', '文学博士', '文学士連中', '勢揃', '賛成員', '牡蠣先生', '掛念', '連判状', '顔付', '東風子', '菓子皿', '一口', '雑煮事件', '東風子', '菓子皿', '東風子', '迷亭先生', '申納候', '迷亭先生', '其後別', '艶書', '候間', '休心可', '下候', '年始状', '世間的', '一寸参堂', '消極主義', '限り積極的方針', '此千古未曾有', '毎日毎日目', '推察願上候', '迷亭君', '東風子', '候処', '材料払底', '為め其意', '遺憾千万', '存候', '歌留多会', '審美学協会', '新年宴会', '其明日', '鳥部教授歓迎会', '其又明日', '謡曲会', '俳句会', '短歌会', '新体詩会等', '幕無し', '候為め', '得已賀状', '候段', '下度候', '度心得', '御座候', '寒厨何', '心掛居候', '材料払底', '為め', '兼候', '申候', '通り孔雀一羽', '舌肉', '胃嚢', '是非共二三十羽', '可ら', '存候', '所孔雀', '動物園', '浅草花屋敷等', '鳥屋抔', '苦心此事', '御座候', '此孔雀', '往昔羅馬全盛', '一時非常', '候もの', '豪奢風流', '居候次第', '諒察可', '下候', '十六七世紀', 'レスター伯', '候節', '候様記憶致候', '候饗宴', '儘卓上', '横わり', '料理史', 'さそう', '如く御馳走', '歴史家', '羅馬人', '二度三度', '候由', '二度', '三度', '食饌', '健胃', '消化機能', 'の必要', '入浴致候', '入浴後一種', '浴前', '胃内', '胃内廓清', '吐出致候', '愚考致候', '廿世紀', '今日交通', '軍国多事征露', '二年', '候折柄', '吾人戦勝国', '是非共羅馬人', '此入浴嘔吐', '候事', '自信致候', '切角', '胃病患者', '此際吾人西洋', '古史伝説', '所謂禍', 'の功徳', '平素逸楽', '存候', '此間中', 'モンセン', 'スミス等諸家', '存候', '候事', '嘔吐方', '候次第', '発見次第', '報道可', '承知可', '下候', '申上候トチメンボー', '右発見後', '存候草々不備', '新年匆々', 'ひま人', '四五日', '青軸', '一両度三毛子', '師匠さん', '手水鉢', '三毛', '私共', '一日', '医者様', '三毛', '診察場', '三毛', '天璋院様', '天璋院様', '馬鹿叮嚀', '旧幕時代', '毎朝無作法', '朝風呂場', '一日', '吾等猫', '維新前', '屋敷町', '一人', '野良猫さ', '三毛', '三毛子', '師匠さん', '当分多忙', '年始状', '迷亭君', '今翻訳', '文章だい', '全体どこ', '二読本', '二読本', '二読本', '二読本', '口髯', '先生近頃名文', '催促状', '審美眼', '迷亭先生', '審美眼', '禅坊主', '燈国師', '巨人引力', '巨人引力', 'め念', '三度', '巨人引力', '巨人引力', '巨人引力', '巨人引力', 'それぎりかい', '驚ろ', '降参降参', '一人', '一人', '喋舌', '本もの', '水彩画', '差別黒白平等', '水彩画', '疳違い', '寒月君', '迷亭先生', '越智東風', '越智東風', '是非紹介', 'んだい', '迷亭君', '大変気', '迷亭先生', '金唐皮', '煙草入', '越智東風', '越智こ', '文学熱', '迷亭先生', '戸迷い', '朗読会', 'それそれ', '迷亭先生', '険呑', '朗読会', 'せんだってトチメンボー', '二回', '金色夜叉', '是非出席', '寒月君', '笑い方', '一度', '迷亭君', '永年教師', '胡魔化', '社交上', '迷亭先生', '二十七日', '上是非文芸上', '滑稽物', '夜間外出', '冷水浴', '迷亭先生', '仕合せ者', '働ら', '節季師走', '——僕', '小学校時代', '一番仕舞', '今度限り', 'なおのこと気', '晩飯', '十二三行', '六尺以上', '十行内外', '一日', '富士見町', '土手三番町', '神楽坂', '土手下', '無常迅速', '何だい', '断句', '台の', '土手三番町の', '何十本', '二三', '希臘人', '一人', '約束通り', '拠処差支え', 'んだい', '一足違い', '意識下', '幽冥界', '現実界', '因果法', '空也餅', '私の', '空也餅', '忘年会兼合奏会', '十五六人令嬢', '○子さん', '三日前', '通りどこ', '驚ろ', '迷亭先生', '睡眠剤', '否や一種いや', '固形体', '○○子さん', '○子さん', 'すべて曖', '一杯', '一度', '吾妻橋', '一台馳', '札幌ビール', '今時分人', '一足二足', '三度目', '○子', '○子', '間違', 'ハハハハこれ', 'ゼームス教授', '写生文', '○子さん', '迷亭先生', '二三日前年始', 'んだい', '僕の', 'みんな去年', '空也餅', 'いや日', '二十日頃', '三味線もの', '三十三間堂', '三十三間堂', '三十三間堂', '手詰', '眼付', '君代さん', '晩飯', '四時', '四時', '君代さん', '四時', '君不思議', 'なに細君', '風船玉', '一度', '一度', '洒掃薪水', '四五枚', '堵物', '靴脱', '四時前', '甘木医学士', '二時頃', '帰り次第', '杏仁水', '四時前', '顔付', '四時', '四時', "manyaslip'twixtthecupandthelip", '耶蘇学校', '君等', '通り風呂場', '甘木君', '三時', '四時', '一時間', 'ぴかついて黒縮緬', '有形無形', '一ぷくふかしているとようやく甘木先生', '注文通り', '甘木先生', '険呑', '三十分', ...]
36. 単語の出現頻度
文章中に出現する単語とその出現頻度を求め,出現頻度の高い順に並べよ.
import collections
word_counter = collections.Counter()
for sentense in result_mecab:
word_counter.update(morphene['surface'] for morphene in sentense)
word_counter.most_common()
Out[195]:
[('の', 9194), ('。', 7486), ('て', 6873), ('、', 6772), ('は', 6422), ('に', 6268), ('を', 6071), ('と', 5515), ('が', 5339), ('た', 3989), ('で', 3813), ('「', 3231), ('」', 3225), ('も', 2479), ('ない', 2391), ('だ', 2367), ('し', 2328), ('から', 2043), ('ある', 1730), ('な', 1612), ('ん', 1568), ('か', 1531), ('いる', 1251), ('事', 1207), ('へ', 1034), ('する', 998), ('う', 992), ('もの', 981), ('です', 973), ('君', 973), ('云う', 937), ('主人', 932), ('よう', 697), ('ね', 683), ('この', 649), ('御', 636), ('ば', 617), ('人', 602), ('その', 576), ('一', 554), ('そう', 554), ('何', 539), ('なる', 531), ('さ', 513), ('よ', 509), ('なら', 483), ('吾輩', 481), ('い', 477), ('ます', 458), ('じゃ', 448), ('…', 433), ('これ', 414), ('\u3000', 411), ('なっ', 404), ('それ', 395), ('来', 364), ('れ', 356), ('見', 350), ('でも', 345), ('時', 344), ('迷亭', 343), ('ませ', 330), ('いい', 320), ('——', 319), ('ところ', 315), ('まで', 313), ('方', 312), ('三', 311), ('二', 302), ('ず', 299), ('上', 294), ('まし', 289), ('寒月', 286), ('顔', 282), ('ぬ', 277), ('先生', 274), ('見る', 273), ('人間', 272), ('だろ', 270), ('くらい', 269), ('僕', 268), ('たら', 264), ('さん', 260), ('なく', 258), ('気', 250), ('あり', 249), ('猫', 248), ('だけ', 245), ('出', 245), ('出来', 244), ('云っ', 241), ('また', 238), ('中', 233), ('思っ', 232), ('ばかり', 231), ('十', 230), ('ごとく', 225), ('あっ', 221), ('どう', 220), ('って', 216), ('細君', 213), ('など', 205), ('今', 199), ('鼻', 199), ('大', 195), ('者', 194), ('や', 194), ('そんな', 194), ('あの', 189), ('しかし', 185), ('てる', 182), ('より', 181), ('ながら', 179), ('ので', 175), ('自分', 175), ('少し', 172), ('頭', 169), ('ちょっと', 169), ('でしょ', 162), ('訳', 159), ('前', 158), ('声', 154), ('かい', 153), ('うち', 152), ('日', 152), ('ほど', 150), ('聞い', 150), ('知れ', 150), ('ただ', 150), ('私', 149), ('として', 149), ('だって', 148), ('男', 147), ('思う', 146), ('たい', 146), ('行っ', 144), ('子', 143), ('せ', 143), ('家', 143), ('眼', 142), ('ため', 141), ('?', 141), ('見え', 139), ('よく', 138), ('出し', 137), ('彼', 134), ('誰', 133), ('たり', 133), ('かも', 132), ('間', 131), ('知ら', 127), ('所', 127), ('女', 126), ('もう', 124), ('え', 121), ('られ', 121), ('こんな', 120), ('金田', 119), ('どこ', 118), ('東風', 118), ('たる', 117), ('という', 116), ('ねえ', 116), ('今日', 116), ('まだ', 115), ('いや', 114), ('通り', 114), ('なけれ', 113), ('苦', 112), ('的', 111), ('ざる', 111), ('くる', 109), ('さえ', 109), ('れる', 109), ('第', 108), ('例', 108), ('まあ', 107), ('口', 107), ('こう', 107), ('聞く', 106), ('なかっ', 106), ('わ', 104), ('なり', 104), ('持っ', 103), ('あれ', 103), ('馬鹿', 103), ('五', 102), ('行く', 101), ('本', 101), ('心', 100), ('年', 99), ('沙弥', 99), ('ええ', 99), ('ぜ', 98), ('四', 98), ('とか', 97), ('手', 97), ('ここ', 97), ('やる', 96), ('大きな', 95), ('話し', 94), ('度', 94), ('分ら', 93), ('ちゃ', 93), ('やっ', 93), ('下', 93), ('今度', 93), ('考え', 92), ('しまっ', 91), ('少々', 90), ('くれ', 90), ('云わ', 89), ('ござい', 89), ('まい', 89), ('大変', 88), ('妙', 88), ('昔', 88), ('る', 87), ('面白い', 87), ('奴', 86), ('いくら', 86), ('あ', 86), ('あまり', 85), ('鈴木', 85), ('あなた', 85), ('っ', 84), ('仙', 84), ('云い', 84), ('もっ', 84), ('独', 83), ('六', 83), ('出来る', 83), ('なかなか', 82), ('学校', 82), ('金', 82), ('もっとも', 81), ('なるほど', 80), ('出す', 80), ('やはり', 80), ('どうも', 79), ('小', 79), ('さあ', 78), ('話', 77), ('得', 76), ('目', 76), ('ましょ', 75), ('すれ', 75), ('つけ', 75), ('まま', 74), ('運動', 74), ('彼等', 74), ('以上', 74), ('来る', 73), ('仕方', 73), ('ヴァイオリン', 73), ('全く', 73), ('もし', 73), ('もん', 73), ('つい', 72), ('のみ', 72), ('あろ', 72), ('つもり', 72), ('だい', 71), ('内', 71), ('物', 71), ('名', 71), ('早く', 71), ('それから', 70), ('何だか', 70), ('決して', 70), ('のに', 70), ('見える', 70), ('ほか', 68), ('出る', 68), ('右', 67), ('音', 67), ('かく', 67), ('思わ', 66), ('様', 66), ('なんか', 66), ('入れ', 65), ('大分', 65), ('八', 65), ('寝', 65), ('そんなに', 65), ('べき', 65), ('あと', 65), ('這入っ', 65), ('す', 65), ('みんな', 64), ('教師', 64), ('食っ', 64), ('必ず', 63), ('それで', 63), ('心配', 63), ('相違', 63), ('あら', 63), ('おい', 63), ('たく', 63), ('黒', 62), ('急', 62), ('無', 62), ('いつ', 62), ('そりゃ', 61), ('先', 61), ('なさい', 61), ('行か', 61), ('思い', 60), ('ところが', 60), ('候', 60), ('ら', 60), ('書斎', 60), ('敵', 60), ('まず', 59), ('事件', 59), ('同じ', 59), ('だから', 59), ('はず', 58), ('足', 58), ('始め', 57), ('いえ', 57), ('なに', 57), ('供', 57), ('において', 57), ('知っ', 57), ('鼠', 56), ('立て', 56), ('り', 56), ('お', 56), ('すると', 56), ('奥さん', 56), ('分', 55), ('あんな', 55), ('しばらく', 55), ('泥棒', 55), ('気の毒', 55), ('やり', 55), ('毛', 55), ('生徒', 55), ('帰っ', 55), ('るる', 54), ('駄目', 53), ('無論', 53), ('なくっ', 52), ('云え', 52), ('かけ', 52), ('すぐ', 52), ('ようやく', 52), ('々', 52), ('返事', 52), ('とも', 52), ('なぜ', 51), ('そこ', 51), ('いよいよ', 51), ('笑い', 51), ('驚', 51), ('せる', 51), ('逆上', 51), ('真面目', 50), ('らしい', 50), ('横', 50), ('裏', 49), ('一つ', 49), ('ろ', 49), ('好い', 49), ('これから', 48), ('いろいろ', 48), ('水', 48), ('屋', 48), ('娘', 48), ('首', 48), ('しよ', 48), ('立っ', 48), ('しきりに', 48), ('世の中', 47), ('どんな', 47), ('名前', 47), ('妻君', 47), ('無理', 47), ('笑っ', 47), ('おら', 47), ('しまう', 47), ('せんだって', 46), ('勢', 46), ('んで', 46), ('是非', 46), ('体', 46), ('向う', 46), ('不思議', 46), ('吾', 45), ('悪い', 45), ('問題', 45), ('実は', 45), ('七', 45), ('博士', 45), ('極', 45), ('風', 45), ('なし', 45), ('頃', 45), ('聞き', 44), ('まるで', 44), ('上っ', 44), ('癖', 44), ('近頃', 44), ('違', 44), ('食い', 44), ('いかに', 44), ('相手', 44), ('感じ', 44), ('め', 44), ('円', 44), ('とき', 44), ('勝手', 44), ('相', 43), ('実に', 43), ('何とか', 43), ('西洋', 43), ('こっち', 43), ('客', 42), ('答え', 42), ('館', 42), ('ああ', 42), ('下女', 42), ('百', 42), ('やら', 42), ('致し', 41), ('考える', 41), ('元来', 41), ('つく', 41), ('買っ', 41), ('念', 41), ('雪江', 41), ('聞か', 41), ('様子', 41), ('なんて', 41), ('垣', 41), ('ご', 41), ('結果', 41), ('だっ', 40), ('食う', 40), ('障子', 40), ('け', 40), ('多々良', 40), ('士', 40), ('長い', 40), ('平気', 40), ('とうとう', 40), ('困る', 40), ('自己', 40), ('研究', 39), ('必要', 39), ('当人', 39), ('構わ', 39), ('よる', 39), ('髯', 39), ('わから', 39), ('ことに', 39), ('たって', 39), ('鏡', 39), ('読ん', 39), ('おや', 39), ('挨拶', 39), ('どうか', 38), ('へえ', 38), ('神', 38), ('いけ', 38), ('とにかく', 38), ('うん', 38), ('すでに', 38), ('時代', 38), ('きっと', 38), ('車屋', 37), ('椽側', 37), ('分り', 37), ('自然', 37), ('えらい', 37), ('時々', 37), ('死ん', 37), ('とっ', 37), ('感心', 37), ('会', 37), ('事実', 37), ('着', 37), ('上げ', 37), ('飲ん', 37), ('死ぬ', 36), ('なお', 36), ('やめ', 36), ('骨', 36), ('落ち', 36), ('意味', 36), ('よかろ', 36), ('後', 36), ('随分', 36), ('不', 36), ('腹', 36), ('国', 36), ('暗に', 36), ('座敷', 36), ('色', 36), ('生れ', 36), ('面', 36), ('武', 36), ('飯', 36), ('心得', 35), ('実業', 35), ('承知', 35), ('ちょうど', 35), ('陰', 35), ('君子', 35), ('ちと', 35), ('書生', 35), ('坊', 35), ('落雲', 35), ('さすが', 35), ('字', 35), ('探偵', 35), ('とうてい', 35), ('せっかく', 35), ('いう', 35), ('点', 35), ('一番', 35), ('病気', 35), ('忘れ', 34), ('力', 34), ('どうしても', 34), ('※', 34), ('穴', 34), ('共', 34), ('どうして', 34), ('おり', 34), ('けれども', 34), ('すこぶる', 34), ('過ぎ', 34), ('衛門', 33), ('日本', 33), ('笑う', 33), ('到底', 33), ('影', 33), ('ごとき', 33), ('取っ', 33), ('向っ', 33), ('等', 33), ('天下', 33), ('至っ', 33), ('よほど', 33), ('おく', 33), ('不平', 33), ('時分', 32), ('夫婦', 32), ('我', 32), ('どうせ', 32), ('代り', 32), ('待っ', 32), ('に対して', 32), ('やがて', 32), ('突然', 32), ('左', 32), ('にゃ', 32), ('失敬', 32), ('き', 32), ('おれ', 32), ('真中', 32), ('伯父', 32), ('毎日', 32), ('非常', 32), ('次', 32), ('過ぎる', 32), ('ついに', 32), ('安心', 32), ('切っ', 32), ('令嬢', 31), ('こりゃ', 31), ('かかる', 31), ('分る', 31), ('一体', 31), ('たろ', 31), ('立派', 31), ('込ん', 31), ('書い', 31), ('飛ん', 31), ('いっ', 31), ('他', 31), ('引き', 31), ('いら', 31), ('行き', 31), ('枚', 31), ('について', 31), ('湯', 31), ('しかも', 30), ('似', 30), ('言葉', 30), ('辺', 30), ('向', 30), ('別段', 30), ('付け', 30), ('いか', 30), ('べから', 30), ('姉', 30), ('逆', 30), ('残念', 30), ('晩', 30), ('付', 30), ('山の芋', 30), ('いっしょ', 30), ('後ろ', 30), ('によって', 30), ('ども', 30), ('普通', 30), ('耳', 30), ('はなはだ', 30), ('作っ', 30), ('尻尾', 29), ('町', 29), ('喧嘩', 29), ('返', 29), ('台所', 29), ('なあ', 29), ('舌', 29), ('杯', 29), ('すまし', 29), ('考', 29), ('最後', 29), ('御前', 29), ('尺', 29), ('大丈夫', 29), ('質問', 29), ('尻', 29), ('おっ', 29), ('烏', 29), ('でし', 29), ('愉快', 29), ('なさる', 29), ('撫で', 28), ('結構', 28), ('愚', 28), ('時間', 28), ('茶碗', 28), ('発達', 28), ('白', 28), ('起し', 28), ('逢っ', 28), ('負け', 28), ('変', 28), ('にやにや', 28), ('全体', 28), ('傍', 28), ('たしかに', 28), ('畳', 28), ('つ', 28), ('変化', 28), ('悪', 28), ('帰る', 28), ('くれる', 28), ('馳', 27), ('夜', 27), ('それでも', 27), ('画', 27), ('つか', 27), ('文明', 27), ('己', 27), ('ま', 27), ('世間', 27), ('開い', 27), ('損', 27), ('夢', 27), ('爪', 27), ('迷惑', 27), ('諸君', 27), ('三平', 27), ('付い', 27), ('狂', 27), ('妻', 27), ('関係', 27), ('羽織', 27), ('だんだん', 27), ('這入る', 27), ('受け', 27), ('貰っ', 26), ('説明', 26), ('先方', 26), ('坐っ', 26), ('利か', 26), ('一向', 26), ('あんまり', 26), ('答える', 26), ('充分', 26), ('得る', 26), ('二つ', 26), ('嫁', 26), ('○', 26), ('善い', 26), ('黙っ', 26), ('我慢', 26), ('注意', 26), ('底', 26), ('なれ', 26), ('なあに', 26), ('さっき', 25), ('変ら', 25), ('有し', 25), ('着物', 25), ('なん', 25), ('がっ', 25), ('餅', 25), ('拝見', 25), ('種', 25), ('実際', 25), ('ものの', 25), ('化物', 25), ('戦争', 25), ('眺め', 25), ('苦しい', 25), ('く', 25), ('生き', 25), ('万', 25), ('箸', 25), ('わるい', 25), ('法', 25), ('山', 25), ('かかっ', 25), ('場', 25), ('述べ', 25), ('かける', 25), ('見せ', 25), ('朝', 25), ('冗談', 25), ('この間', 24), ('坊主', 24), ('ついで', 24), ('九', 24), ('下さい', 24), ('真似', 24), ('向い', 24), ('個性', 24), ('結婚', 24), ('なるべく', 24), ('言っ', 24), ('地蔵', 24), ('嫌', 24), ('心持ち', 24), ('語', 24), ('玉', 24), ('場合', 24), ('ありがたい', 24), ('帽子', 24), ('給え', 24), ('動物', 24), ('寸', 24), ('もう少し', 24), ('希', 24), ('本人', 24), ('よっぽど', 24), ('こそ', 24), ('壺', 24), ('御馳走', 24), ('月並', 24), ('困っ', 24), ('教え', 24), ('邸', 24), ('婦人', 24), ('読む', 24), ('分っ', 24), ('皆', 23), ('世紀', 23), ('立ち', 23), ('胃弱', 23), ('やろ', 23), ('違い', 23), ('しか', 23), ('なかろ', 23), ('出掛け', 23), ('説', 23), ('千', 23), ('蝉', 23), ('東京', 23), ('毫も', 23), ('大抵', 23), ('懸け', 23), ('御覧', 23), ('功', 23), ('身', 23), ('甘木', 23), ('同時に', 23), ('癪', 23), ('松', 23), ('うまい', 23), ('銭', 23), ('自身', 23), ('廻っ', 23), ('連れ', 23), ('布団', 23), ('自ら', 23), ('取ら', 23), ('禿', 23), ('なか', 23), ('嬢', 23), ('解釈', 23), ('ー', 23), ('いいえ', 23), ('こと', 22), ('ことごとく', 22), ('自覚', 22), ('散歩', 22), ('しまい', 22), ('学者', 22), ('記憶', 22), ('られる', 22), ('叔父さん', 22), ('茶の間', 22), ('たまえ', 22), ('調子', 22), ('廻る', 22), ('そうして', 22), ('能', 22), ('意', 22), ('判然', 22), ('際', 22), ('たちまち', 22), ('皿', 22), ('罪', 22), ('水島', 22), ('そこで', 22), ('尊敬', 22), ('滅多', 22), ('気味', 22), ('師匠', 22), ('むずかしい', 22), ('やっぱり', 22), ('天', 21), ('滑稽', 21), ('長く', 21), ('あばた', 21), ('よし', 21), ('源', 21), ('爺さん', 21), ('乱暴', 21), ('天然', 21), ('帯', 21), ('煙草', 21), ('なんぞ', 21), ('表', 21), ('動か', 21), ('竹', 21), ('膝', 21), ('高い', 21), ('個', 21), ('合', 21), ('主義', 21), ('詩', 21), ('一般', 21), ('秋', 20), ('神経', 20), ('振り', 20), ('どっち', 20), ('隣り', 20), ('材料', 20), ('申す', 20), ('方法', 20), ('おとなしく', 20), ('かよう', 20), ('もっと', 20), ('置い', 20), ('せら', 20), ('芸術', 20), ('談話', 20), ('遠慮', 20), ('大方', 20), ('句', 20), ('得意', 20), ('美学', 20), ('珍', 20), ('歩', 20), ('文章', 20), ('存外', 20), ('世界', 20), ('ありゃ', 20), ('石', 20), ('わざわざ', 20), ('夏', 20), ('野郎', 20), ('すら', 20), ('現に', 20), ('本当に', 20), ('黒い', 20), ('さて', 20), ('つつ', 20), ('先刻', 20), ('見れ', 20), ('熱心', 20), ('奇麗', 20), ('居士', 20), ('世', 20), ('発明', 20), ('裸体', 20), ('至る', 20), ('巡査', 20), ('ちゃんと', 20), ('庭', 20), ('トチメンボー', 19), ('木', 19), ('犬', 19), ('月', 19), ('だら', 19), ('積極', 19), ('いかなる', 19), ('無言', 19), ('回', 19), ('あるいは', 19), ('医者', 19), ('その後', 19), ('取り', 19), ('または', 19), ('次第', 19), ('性', 19), ('虎', 19), ('決心', 19), ('以外', 19), ('奥', 19), ('自慢', 19), ('無い', 19), ('艶', 19), ('老', 19), ('危険', 19), ('茶', 19), ('使っ', 19), ('起っ', 19), ('申し', 19), ('立つ', 19), ('了見', 19), ('面倒', 19), ('性質', 19), ('宜', 19), ('胃', 19), ('味', 19), ('すん', 19), ('勉強', 19), ('警察', 19), ('貰う', 19), ('弁じ', 19), ('元', 19), ('煙', 19), ('同情', 19), ('恋', 19), ('馬', 19), ('両', 19), ('多少', 19), ('頑固', 18), ('窓', 18), ('飛び出し', 18), ('牛', 18), ('教育', 18), ('写生', 18), ('面白く', 18), ('半分', 18), ('胸', 18), ('こ', 18), ('見せる', 18), ('議論', 18), ('おっしゃる', 18), ('長', 18), ('いらっしゃい', 18), ('何となく', 18), ('冊', 18), ('机', 18), ('遣', 18), ('合わ', 18), ('薬', 18), ('呼ぶ', 18), ('悪口', 18), ('術', 18), ('公平', 18), ('楽', 18), ('独り', 18), ('書', 18), ('失礼', 18), ('いつの間にか', 18), ('いわゆる', 18), ('よろしい', 18), ('製造', 18), ('こいつ', 18), ('悪く', 18), ('帰り', 18), ('たしか', 18), ('聞える', 18), ('強い', 18), ('呼ん', 18), ('つける', 18), ('連中', 18), ('昨日', 18), ('御蔭', 18), ('あけ', 18), ('流', 18), ('乗っ', 18), ('落ちる', 18), ('心持', 18), ('さま', 18), ('珠', 18), ('こちら', 18), ('惜しい', 18), ...]
単語の頻度については、collections.Counterで簡単にできるみたい。
コンテナデータ型ってなんだ。
やっぱり標準ライブラリの勉強必須。Battery Includedの片鱗を実感。
37. 頻度上位10語
出現頻度が高い10語とその出現頻度をグラフ(例えば棒グラフなど)で表示せよ.
結果
from matplotlib import pyplot as plt
from matplotlib.font_manager import FontProperties
fp = FontProperties(fname='/System/Library/Fonts/ヒラギノ角ゴシック W2.ttc')
dataset = list(zip(*word_counter.most_common(10)))
plt.xticks(range(len(dataset[0])), dataset[0], fontproperties=fp)
plt.bar(range(len(dataset[0])), dataset[1], align='center')
matplotlibの日本語フォントについて
デフォルトのまま日本語を使うと文字化けするため、設定を変更する必要がある。
今回はFontPropertiesにて変更。
デフォルトフォントを変更する方法もあるみたいだが、実行してみても変更できない。。。
zip()について
以前取り上げたzip関数だが、引数に「*」をつけると元に戻せるらしい。
dataset
Out[23]:
[('の', '。', 'て', '、', 'は', 'に', 'を', 'と', 'が', 'た'),
(9194, 7486, 6873, 6772, 6422, 6268, 6071, 5515, 5339, 3989)]
list(zip(*dataset))
Out[24]:
[('の', 9194),
('。', 7486),
('て', 6873),
('、', 6772),
('は', 6422),
('に', 6268),
('を', 6071),
('と', 5515),
('が', 5339),
('た', 3989)]
すごい。
38. ヒストグラム
単語の出現頻度のヒストグラム(横軸に出現頻度,縦軸に出現頻度をとる単語の種類数を棒グラフで表したもの)を描け.
# ラベル・目盛りの追加
plt.xlabel('出現頻度', fontproperties=fp)
plt.ylabel('単語の種類数', fontproperties=fp)
plt.grid(axis='y')
# 出現頻度0が出てしまう対策
plt.xlim(xmin=1, xmax=20)
plt.hist(dataset[1], bins=30, range=(1, 30))
39. Zipfの法則
単語の出現頻度順位を横軸,その出現頻度を縦軸として,両対数グラフをプロットせよ.
plt.scatter(range(len(dataset[1])), dataset[1])
# 対数化
plt.xscale('log')
plt.yscale('log')
# 軸の範囲調整
plt.xlim(1, len(dataset[0]))
plt.ylim(1, dataset[1][0])
# ラベルづけ
plt.xlabel('出現度順位', fontproperties=fp)
plt.ylabel('出現頻度', fontproperties=fp)
###Zipfの法則とは
「n番目に多く現れる単語は、1番多く現れる単語のn分の1の確率で現れる」のだそうな。
これはあらゆる言語に共通するだけでなく、自然現象や社会現象にも適用できるらしい(http://www.is.titech.ac.jp/~mase/masename/chida-surname3/node3.html)。