3
3

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?

More than 5 years have passed since last update.

言語処理100本ノックに挑戦 第4章

Posted at

形態素解析

30. 形態素解析結果の読み込み

形態素解析結果(neko.txt.mecab)を読み込むプログラムを実装せよ.ただし,各形態素は表層形(surface),基本形(base),品詞(pos),品詞細分類1(pos1)をキーとするマッピング型に格納し,1文を形態素(マッピング型)のリストとして表現せよ.第4章の残りの問題では,ここで作ったプログラムを活用せよ.

analytics_by_MeCab.py
# -*- coding: utf-8 -*-

import MeCab

def create_MeCabFile(filename):
    # 形態素解析の結果を.mecabファイルに格納
    with open(filename) as data_file, open(filename + '.mecab', 'w') as out_file:
        mecab = MeCab.Tagger()
        out_file.write(mecab.parse(data_file.read()))

def mapping_MeCab(mecabFilename):

    with open(mecabFilename, encoding='utf-8') as mecabFile:
        sentense = []
        sentenses = []

        for morpheme in mecabFile.read().split('\n'):
            # MeCabの形態素解析結果
            #  → 表層形\t品詞,品詞細分類1,品詞細分類2,品詞細分類3,活用型,活用形,原形,読み,発音

            # 解析結果をタブで区切る
            surfase = morpheme.split('\t')

            # 解析結果が出力されている行(=タブがある行)のみ処理対象
            if len(surfase) >= 2:
                # 残りをカンマで区切る
                result = surfase[1].split(',')

                # 結果をマッピングで格納
                word = {
                    'surface' : surfase[0],
                    'base' : result[6],
                    'pos' : result[0],
                    'pos1' : result[1]
                }
                # 1文単位のリストに追加
                sentense.append(word)

                # 句点か空白があったら終了
                if word['pos1'] == '句点':# or word['pos1'] == '空白':
                    sentenses.append(sentense)
                    # yield sentense
                    sentense = []

    return sentenses

結果

import analytics_by_MeCab
analytics_by_MeCab.create_MeCabFile('第4章/neko.txt')
morphenes = analytics_by_MeCab.mapping_MeCab('第4章/neko.txt.mecab')
morphenes
...
[{'base': '吾輩', 'pos': '名詞', 'pos1': '代名詞', 'surface': '吾輩'}, {'base': '', 'pos': '助詞', 'pos1': '係助詞', 'surface': ''}, {'base': '死ぬ', 'pos': '動詞', 'pos1': '自立', 'surface': '死ぬ'}, {'base': '', 'pos': '記号', 'pos1': '句点', 'surface': ''}]
[{'base': '死ぬ', 'pos': '動詞', 'pos1': '自立', 'surface': '死ん'}, {'base': '', 'pos': '助詞', 'pos1': '接続助詞', 'surface': ''}, {'base': 'この', 'pos': '連体詞', 'pos1': '*', 'surface': 'この'}, {'base': '太平', 'pos': '名詞', 'pos1': '一般', 'surface': '太平'}, {'base': '', 'pos': '助詞', 'pos1': '格助詞', 'surface': ''}, {'base': '得る', 'pos': '動詞', 'pos1': '自立', 'surface': '得る'}, {'base': '', 'pos': '記号', 'pos1': '句点', 'surface': ''}]
[{'base': '太平', 'pos': '名詞', 'pos1': '一般', 'surface': '太平'}, {'base': '', 'pos': '助詞', 'pos1': '係助詞', 'surface': ''}, {'base': '死ぬ', 'pos': '動詞', 'pos1': '自立', 'surface': '死な'}, {'base': 'ない', 'pos': '助動詞', 'pos1': '*', 'surface': 'なけれ'}, {'base': '', 'pos': '助詞', 'pos1': '接続助詞', 'surface': ''}, {'base': '得る', 'pos': '動詞', 'pos1': '自立', 'surface': ''}, {'base': 'られる', 'pos': '動詞', 'pos1': '接尾', 'surface': 'られ'}, {'base': '', 'pos': '助動詞', 'pos1': '*', 'surface': ''}, {'base': '', 'pos': '記号', 'pos1': '句点', 'surface': ''}]
[{'base': '南無阿弥陀仏', 'pos': '名詞', 'pos1': '一般', 'surface': '南無阿弥陀仏'}, {'base': '南無阿弥陀仏', 'pos': '名詞', 'pos1': '一般', 'surface': '南無阿弥陀仏'}, {'base': '', 'pos': '記号', 'pos1': '句点', 'surface': ''}]
[{'base': 'ありがたい', 'pos': '形容詞', 'pos1': '自立', 'surface': 'ありがたい'}, {'base': 'ありがたい', 'pos': '形容詞', 'pos1': '自立', 'surface': 'ありがたい'}, {'base': '', 'pos': '記号', 'pos1': '句点', 'surface': ''}]

31. 動詞

動詞の表層形をすべて抽出せよ.

結果

import analytics_by_MeCab
result_mecab = analytics_by_MeCab.mapping_MeCab('第4章/neko.txt.mecab')
surface = []
for sentnese in result_mecab:
    for morphene in sentnese:
        if morphene['pos'] == '動詞':
            surface.append(morphene['surface'])
            
surface
Out[8]: 
['生れ', 'つか', '', '泣い', '', 'いる', '始め', '', '聞く', '捕え', '', '食う', '思わ', '載せ', 'られ', '持ち上げ', 'られ', '', 'あっ', '落ちつい', '', '', '思っ', '残っ', 'いる', '', '', '', '逢っ', '出会わ', '', 'なら', '', 'いる', '吹く', '', '弱っ', '飲む', '知っ', '坐っ', 'おっ', 'する', '', '始め', '動く', '動く', '分ら', '廻る', 'なる', '助から', '思っ', 'いる', 'さり', '', '', '', 'いる', '考え出そ', '分ら', '付い', '見る', '', 'おっ', '見え', '隠し', 'しまっ', '違っ', '明い', '', 'られ', '這い出し', '見る', '棄て', 'られ', '這い出す', 'ある', '坐っ', '', '考え', '', '', '', '泣い', '', 'くれる', '考え付い', 'やっ', '', '', '渡っ', 'かかる', '減っ', '', '泣き', '', 'ある', 'ある', '', 'そろ', '廻り', '始め', '', '這っ', '行く', '', '這入っ', 'なる', '思っ', '崩れ', 'もぐり込ん', '破れ', '', '', '知れ', '云っ', '至る', 'する', 'なっ', 'いる', '忍び込ん', '分ら', 'なる', '減る', '降っ', '来る', '出来', 'なっ', 'あるい', '行く', '考える', '這入っ', 'おっ', '見る', '', '逢っ', '見る', 'つかん', '抛り出し', '思っ', 'ねぶっ', '任せ', '', '出来', '', '這い', '上っ', '投げ出さ', '', '投げ出さ', '', '這い', '上り', '這い', '上っ', '投げ出さ', '', '繰り返し', '', 'いる', '云う', 'なっ', '', 'やっ', '下り', 'つまみ出さ', 'れよ', '', 'いい', '', '', 'ぶら下げ', '向け', '出し', '出し', '上っ', '', '困り', 'いう', '撚り', '眺め', 'おっ', '置い', 'やれ', '這入っ', 'しまっ', '聞か', '見え', '抛り出し', '極める', '', '合せる', '帰る', '這入っ', '', '来る', '思っ', 'いる', '見せ', 'いる', 'いう', '覗い', '見る', '', 'いる', 'ある', '読みかけ', 'ある', 'たらし', 'いる', '帯び', 'あらわし', 'いる', '食う', '食っ', '飲む', '飲ん', 'ひろげる', '読む', 'なる', '垂らす', '繰り返す', '考える', 'ある', '生れ', 'なる', '限る', '', '', '勤まる', '出来', '云わ', 'せる', '来る', '鳴らし', 'いる', '住み込ん', '行っ', '跳ね', '付け', 'られ', '', 'くれ', '', '', '至る', 'つけ', 'くれ', '分る', '出来', '得る', '入れ', 'くれ', 'いる', 'つとめ', '読む', '乗る', 'する', '乗る', '構い', 'やむを得ん', '寝る', '', '入っ', 'もぐり込ん', 'ねる', 'なる', '入っ', '寝る', '見出し', '割り込む', '醒ます', 'なる', '', '', 'いっ', '泣き', '出す', 'さまし', '飛び出し', 'くる', '叩か', '', '', 'すれ', 'する', '', '', 'なっ', 'する', '至っ', '', 'かぶせ', '抛り出し', '押し込ん', 'する', 'しよ', '追い廻し', '加える', '磨い', '怒っ', '入れ', '', '', 'する', '逢う', '言っ', '産まれ', '持っ', '行っ', '棄て', '来たそ', '流し', '話し', 'する', '戦っ', '', 'なら', 'いわ', '', '思う', '隣り', '解し', '', 'いっ', '', 'いる', '見付け', '食う', 'ある', 'なっ', 'いる', '守ら', '訴え', '見え', '見付け', 'せら', '頼ん', '食い', '', '奪っ', 'すまし', 'いる', 'おり', '持っ', 'いる', '住ん', 'いる', '送ら', 'れれ', '栄える', '待つ', '思い出し', '', 'しよ', 'いっ', '勝れ', '出来る', '出し', 'がる', 'やっ', '', '出し', 'かい', 'よる', '凝っ', '習っ', 'ある', '鳴らし', 'する', 'なっ', 'おら', 'やり', '出す', 'うたっ', 'つけ', 'られ', 'いる', '', '繰返し', 'いる', '吹き出す', 'なっ', '住み込ん', 'ある', '提げ', '帰っ', '', '買っ', '', '思う', 'やめ', '見え', '', 'かい', 'いる', '上げ', '見る', 'かい', 'つか', '思っ', 'やっ', 'いる', '', '', 'いる', '聞い', 'かけ', '見る', 'とっ', '見る', '感ずる', '', 'かけ', 'かける', '言っ', 'ある', 'かく', '写せ', 'あり', 'あり', '飛ぶ', 'あり', '走る', 'あり', 'あり', 'あり', 'かこう', '思う', '', 'いっ', 'ある', '知ら', '', 'いる', '', '見え', '', '', '', '', '', 'やっ', 'いる', '覚め', '', 'いる', 'あけ', '見る', '極め込ん', 'いる', '', 'する', '禁じ', '', 'せら', '', '', 'ある', '', '', '執っ', 'いる', '動い', '思っ', '', 'おっ', 'かき', '上げ', '彩っ', 'いる', 'する', 'いい', 'いい', '勝る', '思っ', 'おら', '描き出さ', '', 'ある', '思わ', '', '違う', '含める', '有し', 'いる', '', '疑う', '思う', '見る', 'され', '交ぜ', 'いう', '評し', '', 'いる', '', '見え', '', 'いる', '', '思っ', '', '', '動か', 'におっ', 'やり', '思っ', 'いる', 'する', '出来', 'なっ', 'やむをえ', '', '', '押し出し', '', 'なっ', '見る', '', '', '打ち', '行っ', '足そ', '思っ', '這い出し', '掻き', '交ぜ', '', '怒鳴っ', '罵る', '知ら', '', '知ら', '思う', '乗る', 'する', '甘んじ', '受ける', 'なる', '', 'くれ', '立っ', '', 'いる', '', '', '窘め', 'やら', 'する', '分ら', 'する', '悲しむ', '', 'ある', 'ある', '', '当る', '騒い', '出来', '', '養う', '', '運ば', '', '嗅ぎ', 'くる', '押し倒し', '', 'いる', '近づく', '心付か', '心付く', '', '眠っ', 'いる', '睡ら', 'れる', '驚か', '', '過ぎ', '', 'かけ', 'する', '見え', '燃え', '思わ', '', '云う', '有し', 'いる', 'ある', '忘れ', '', '眺め', 'いる', '', '誘っ', '落ち', '開い', '', 'いる', 'する', '輝い', '', '', '射る', 'あつめ', '云っ', '', '思っ', '', '籠っ', 'いる', '抱い', '', '思っ', '装っ', '答え', '', 'おっ', 'せる', '聞い', 'あきれ', '住ん', 'でる', 'いる', '思っ', '瘠せ', 'てる', '吹きかける', 'する', '思わ', '', '切っ', '', 'いる', '見る', '食っ', 'てる', '暮し', 'いる', '云う', '聞か', '', '知ら', '', 'なっ', 'いる', '聞い', '起す', '生じ', '試し', 'みよ', '思っ', '', '', 'いら', '', 'いる', '食える', '見える', '行っ', '', '廻っ', '', 'くっ', '付い', '', '', 'たた', '見違える', '太れる', '願う', 'しよ', '住ん', 'いる', '思わ', 'れる', 'たっ', '足し', 'なる', '障っ', 'そい', '', '付か', '', '立ち去っ', 'なっ', 'する', 'する', '吐く', '', '聞い', '寝転び', '', 'いる', '話し', '繰り返し', '向っ', '', 'とっ', 'ある', '', 'いる', '至っ', 'なら', '', '', '接し', '行か', 'とろ', '思っ', '捕ら', '答え', '張っ', 'いる', '震わせ', '笑っ', 'する', '足り', 'あっ', '', '鳴らし', '', 'いれ', '御し', 'なっ', '飲み込ん', '', 'する', 'しゃべら', '', '濁す', '定め', 'とっ', 'そそのかし', '', '', '', 'とっ', 'つづけ', '引き受ける', '', '合わ', '', '向っ', '逢っ', '打つ', 'ぱちつかせ', '云う', '持っ', '這い', '込ん', '', '喰っ', '飛び出し', '思い', '', '見せる', '', 'ぐれ', '', '追っかけ', '追い込ん', '思い', 'やっ', '', 'やる', 'いざっ', 'なる', 'こきゃ', 'がっ', '臭え', '', '見る', '至っ', '感ずる', '揚げ', 'なで', '', '', 'する', '付け', 'やろ', '思っ', '睨ま', '', '捕る', '食う', '肥っ', 'とる', '', '', 'いう', 'える', 'つまら', '稼い', 'とっ', 'ふて', '', '', 'とっ', '取り上げ', '', 'がっ', '持っ', '行きゃ', 'あがる', '捕っ', '分ら', 'くれる', '儲け', 'いやがる', '食わせ', 'ありゃ', '', 'わかる', '見え', '怒っ', '逆立て', 'いる', 'なっ', '', '帰っ', 'とる', '', 'なっ', 'あるく', '', '食う', '', '', 'いる', 'なる', '見える', '', 'なる', '知れ', 'いえ', '至っ', '悟っ', '見え', 'かきつけ', '云う', '始め', '出逢っ', '', '云う', 'なる', '', 'いる', '云う', '好か', 'れる', '', '云う', 'する', '', 'られ', '云う', 'いう', 'する', 'する', 'する', '', '', '進ん', 'やる', '於け', 'する', '気づかい', '', '思っ', '済し', 'いる', '飲ん', '這入る', 'なり', '得る', '立つ', 'なり', '得る', '', 'かねる', '', '', 'ある', '', '抜け', '置い', '書い', 'いる', 'かい', 'なら', '思っ', '抛っ', '置い', '', '懸け', 'くれ', '', 'なっ', '見る', 'なっ', '暮らし', 'いる', '明け', '覚め', 'なっ', 'しまっ', '背負っ', 'ある', '', 'いる', '見える', 'なれ', '', '', 'つく', '切っ', '', '力め', 'いる', 'する', 'つか', '分る', '', '', '', '思わ', 'れる', '出さ', 'する', '笑い', '掻く', 'わら', '', '気がつか', '', 'いる', '', '信じよ', '思わ', '聞い', '記さ', '', '', '吹き', '散らし', '担ぐ', '', 'いる', '伝え', '', 'なっ', '', '言う', '受ける', 'する', 'ある', '', 'なる', '書く', 'やめ', '', '', '', '言っ', '話し', '繰り返し', '', 'おっ', 'ある', 'いる', '話し', '', '死ぬ', '襲う', '評し', '坐っ', 'いる', '知ら', '云っ', 'いっ', '読ん', 'おら', '知っ', '', '問いかけ', 'いっ', '読ん', '', 'する', '欺く', 'あらわれ', '困る', '感じ', '動じ', '間違え', '云う', ...]

32. 動詞の原形

動詞の原形をすべて抽出せよ.

結果

base = []
for sentnese in result_mecab:
    for morphene in sentnese:
        if morphene['pos'] == '動詞':
            base.append(morphene['base'])
            
base
Out[11]: 
['生れる', 'つく', 'する', '泣く', 'する', 'いる', '始める', '見る', '聞く', '捕える', '煮る', '食う', '思う', '載せる', 'られる', '持ち上げる', 'られる', 'する', 'ある', '落ちつく', '見る', '見る', '思う', '残る', 'いる', 'する', 'れる', 'する', '逢う', '出会う', 'する', 'なる', 'する', 'いる', '吹く', 'する', '弱る', '飲む', '知る', '坐る', 'おる', 'する', 'する', '始める', '動く', '動く', '分る', '廻る', 'なる', '助かる', '思う', 'いる', 'さる', 'する', '出る', 'する', 'いる', '考え出す', '分る', '付く', '見る', 'いる', 'おる', '見える', '隠す', 'しまう', '違う', '明く', 'いる', 'られる', '這い出す', '見る', '棄てる', 'られる', '這い出す', 'ある', '坐る', 'する', '考える', '見る', '出る', 'する', '泣く', '来る', 'くれる', '考え付く', 'やる', '見る', '来る', '渡る', 'かかる', '減る', '来る', '泣く', '出る', 'ある', 'ある', 'する', 'そる', '廻る', '始める', 'する', '這う', '行く', '出る', '這入る', 'なる', '思う', '崩れる', 'もぐり込む', '破れる', 'いる', 'する', '知れる', '云う', '至る', 'する', 'なる', 'いる', '忍び込む', '分る', 'なる', '減る', '降る', '来る', '出来る', 'なる', 'あるく', '行く', '考える', '這入る', 'おる', '見る', 'する', '逢う', '見る', 'つかむ', '抛り出す', '思う', 'ねぶる', '任せる', 'いる', '出来る', '見る', '這う', '上る', '投げ出す', 'れる', '投げ出す', 'れる', '這う', '上る', '這う', '上る', '投げ出す', 'れる', '繰り返す', 'する', 'いる', '云う', 'なる', 'する', 'やる', '下りる', 'つまみ出す', 'れる', 'する', 'いう', '出る', '来る', 'ぶら下げる', '向ける', '出す', '出す', '上る', '来る', '困る', 'いう', '撚る', '眺める', 'おる', '置く', 'やる', '這入る', 'しまう', '聞く', '見える', '抛り出す', '極める', 'する', '合せる', '帰る', '這入る', '出る', '来る', '思う', 'いる', '見せる', 'いる', 'いう', '覗く', '見る', 'する', 'いる', 'ある', '読みかける', 'ある', 'たらす', 'いる', '帯びる', 'あらわす', 'いる', '食う', '食う', '飲む', '飲む', 'ひろげる', '読む', 'なる', '垂らす', '繰り返す', '考える', 'ある', '生れる', 'なる', '限る', '寝る', 'いる', '勤まる', '出来る', '云う', 'せる', '来る', '鳴らす', 'いる', '住み込む', '行く', '跳ねる', '付ける', 'られる', 'する', 'くれる', 'する', 'れる', '至る', 'つける', 'くれる', '分る', '出来る', '得る', '入れる', 'くれる', 'いる', 'つとめる', '読む', '乗る', 'する', '乗る', '構う', 'やむを得る', '寝る', 'する', '入る', 'もぐり込む', 'ねる', 'なる', '入る', '寝る', '見出す', '割り込む', '醒ます', 'なる', '来る', '来る', 'いう', '泣く', '出す', 'さます', '飛び出す', 'くる', '叩く', 'れる', 'する', 'する', 'する', 'する', '得る', 'なる', 'する', '至る', 'する', 'かぶせる', '抛り出す', '押し込む', 'する', 'する', '追い廻す', '加える', '磨く', '怒る', '入れる', 'える', 'いる', 'する', '逢う', '言う', '産まれる', '持つ', '行く', '棄てる', '来たす', '流す', '話す', 'する', '戦う', 'する', 'なる', 'いう', 'れる', '思う', '隣る', '解す', 'いる', 'いう', 'する', 'いる', '見付ける', '食う', 'ある', 'なる', 'いる', '守る', '訴える', '見える', '見付ける', 'せる', '頼む', '食う', '得る', '奪う', 'すます', 'いる', 'おりる', '持つ', 'いる', '住む', 'いる', '送る', 'れる', '栄える', '待つ', '思い出す', 'する', 'する', 'いう', '勝れる', '出来る', '出す', 'がる', 'やる', 'する', '出す', 'かく', 'よる', '凝る', '習う', 'ある', '鳴らす', 'する', 'なる', 'おる', 'やる', '出す', 'うたう', 'つける', 'られる', 'いる', 'する', '繰返す', 'いる', '吹き出す', 'なる', '住み込む', 'ある', '提げる', '帰る', '来る', '買う', '来る', '思う', 'やめる', '見える', 'する', 'かく', 'いる', '上げる', '見る', 'かく', 'つく', '思う', 'やる', 'いる', '来る', 'する', 'いる', '聞く', 'かける', '見る', 'とる', '見る', '感ずる', '見る', 'かける', 'かける', '言う', 'ある', 'かく', '写す', 'あり', 'あり', '飛ぶ', 'あり', '走る', 'あり', 'あり', 'あり', 'かこう', '思う', 'する', 'いう', 'ある', '知る', 'する', 'いる', '嘲る', '見える', '出る', 'する', 'いる', '出る', '来る', 'やる', 'いる', '覚める', 'する', 'いる', 'あける', '見る', '極め込む', 'いる', '見る', 'する', '禁じる', '得る', 'せる', 'れる', 'する', 'ある', '寝る', 'する', '執る', 'いる', '動く', '思う', 'する', 'おる', 'かく', '上げる', '彩る', 'いる', 'する', 'いう', 'いう', '勝る', '思う', 'おる', '描き出す', 'れる', 'ある', '思う', 'れる', '違う', '含める', '有す', 'いる', '見る', '疑う', '思う', '見る', 'さる', '交ぜる', 'いう', '評す', '寝る', 'いる', 'する', '見える', '寝る', 'いる', 'する', '思う', 'する', '得る', '動く', 'におう', 'やる', '思う', 'いる', 'する', '出来る', 'なる', 'やむをえる', 'する', 'する', '押し出す', 'する', 'なる', '見る', 'する', 'いる', '打つ', '行く', '足す', '思う', '這い出す', '掻く', '交ぜる', 'する', '怒鳴る', '罵る', '知る', 'する', '知る', '思う', '乗る', 'する', '甘んじる', '受ける', 'なる', 'する', 'くれる', '立つ', 'する', 'いる', '出る', '来る', '窘める', 'やる', 'する', '分る', 'する', '悲しむ', 'する', 'ある', 'ある', 'する', '当る', '騒ぐ', '出来る', '出る', '養う', 'する', '運ぶ', 'する', '嗅ぐ', 'くる', '押し倒す', '寝る', 'いる', '近づく', '心付く', '心付く', 'する', '眠る', 'いる', '睡る', 'れる', '驚く', '得る', '過ぎる', '抛る', 'かける', 'する', '見える', '燃える', '思う', 'れる', '云う', '有す', 'いる', 'ある', '忘れる', 'する', '眺める', 'いる', '出る', '誘う', '落ちる', '開く', 'する', 'いる', 'する', '輝く', 'いる', 'する', '射る', 'あつめる', '云う', 'する', '思う', 'する', '籠る', 'いる', '抱く', 'する', '思う', '装う', '答える', 'する', 'おる', 'せる', '聞く', 'あきれる', '住む', 'でる', 'いる', '思う', '瘠せる', 'てる', '吹きかける', 'する', '思う', 'れる', '切る', 'する', 'いる', '見る', '食う', 'てる', '暮す', 'いる', '云う', '聞く', '得る', '知る', 'する', 'なる', 'いる', '聞く', '起す', '生じる', '試す', 'みる', '思う', 'する', '見る', 'いる', '見る', 'いる', '食える', '見える', '行く', 'する', '廻る', 'いる', 'くる', '付く', '来る', '見る', 'たつ', '見違える', '太れる', '願う', 'する', '住む', 'いる', '思う', 'れる', 'たつ', '足す', 'なる', '障る', 'そぐ', 'する', '付く', 'せる', '立ち去る', 'なる', 'する', 'する', '吐く', 'する', '聞く', '寝転ぶ', 'する', 'いる', '話す', '繰り返す', '向う', 'する', 'とる', 'ある', 'する', 'いる', '至る', 'なる', 'する', 'いる', '接す', '行く', 'とる', '思う', '捕る', '答える', '張る', 'いる', '震わせる', '笑う', 'する', '足りる', 'ある', 'する', '鳴らす', 'する', 'いる', '御する', 'なる', '飲み込む', 'する', 'する', 'しゃべる', '', '濁す', '定める', 'とる', 'そそのかす', '見る', 'する', '来る', 'とる', 'つづける', '引き受ける', 'いる', '合う', 'いる', '向う', '逢う', '打つ', 'ぱちつかせる', '云う', '持つ', '這う', '込む', 'いる', '喰う', '飛び出す', '思う', 'する', '見せる', 'いる', 'ぐれる', 'える', '追っかける', '追い込む', '思う', 'やる', 'する', 'やる', 'いざる', 'なる', 'こく', 'がる', '臭う', 'いる', '見る', '至る', '感ずる', '揚げる', 'なでる', '廻る', 'する', 'する', '付ける', 'やる', '思う', '睨む', 'れる', '捕る', '食う', '肥る', 'とる', 'する', 'する', 'いう', 'える', 'つまる', '稼ぐ', 'とる', 'ふてる', 'える', 'いる', 'とる', '取り上げる', 'やる', 'がる', '持つ', '行く', 'あがる', '捕る', '分る', 'くれる', '儲ける', 'いやがる', '食わせる', 'ある', 'する', 'わかる', '見える', '怒る', '逆立てる', 'いる', 'なる', 'する', '帰る', 'とる', 'する', 'なる', 'あるく', 'する', '食う', '寝る', 'いる', 'いる', 'なる', '見える', 'する', 'なる', '知れる', 'いう', '至る', '悟る', '見える', 'かきつける', '云う', '始める', '出逢う', 'する', '云う', 'なる', 'する', 'いる', '云う', '好く', 'れる', 'する', '云う', 'する', 'する', 'られる', '云う', 'いう', 'する', 'する', 'する', 'する', 'れる', '進む', 'やる', '於く', 'する', '気づかう', 'する', '思う', '済す', 'いる', '飲む', '這入る', 'なる', '得る', '立つ', 'なる', '得る', 'する', 'かねる', 'いる', 'する', 'ある', 'する', '抜ける', '置く', '書く', 'いる', 'かく', 'なる', '思う', '抛る', '置く', 'する', '懸ける', 'くれる', '見る', 'なる', '見る', 'なる', '暮らす', 'いる', '明ける', '覚める', 'なる', 'しまう', '背負う', 'ある', 'いる', 'いる', '見える', 'なれる', '見る', 'する', 'つく', '切る', 'する', '力む', 'いる', 'する', 'つく', '分る', 'する', 'する', 'する', '思う', 'れる', '出す', 'する', '笑う', '掻く', 'わる', 'れる', '気がつく', 'する', 'いる', 'する', '信じる', '思う', '聞く', '記す', 'する', '得る', '吹く', '散らす', '担ぐ', 'する', 'いる', '伝える', 'する', 'なる', '', '言う', '受ける', 'する', 'ある', 'する', 'なる', '書く', 'やめる', 'する', 'する', 'せる', '言う', '話す', '繰り返す', 'する', 'おる', 'ある', 'いる', '話す', '出る', '死ぬ', '襲う', '評す', '坐る', 'いる', '知る', '云う', 'いう', '読む', 'おる', '知る', 'する', '問いかける', 'いう', '読む', 'いる', 'する', '欺く', 'あらわれる', '困る', '感じる', '動じる', '間違える', '云う', ...]

33. サ変名詞

サ変接続の名詞をすべて抽出せよ.

結果

noun = []
for sentnese in result_mecab:
    for morphene in sentnese:
        if morphene['base'] != '*': # '--'が検出される対策
            if morphene['pos'] == '名詞' and morphene['pos1'] == 'サ変接続':
               noun.append(morphene['base'])
 
noun
 Out[30]: 
['見当', '記憶', '', '装飾', '突起', '運転', '記憶', '分別', '決心', '我慢', '餓死', '訪問', '始末', '猶予', '遭遇', '我慢', '記憶', '返報', '勉強', '勉強', '昼寝', '珍重', '昼寝', '経験', '', '', '', '', '同居', '観察', '断言', '同衾', '', '迫害', '尊敬', '生活', '剿滅', '議論', '所有', '憤慨', '観念', '御馳走', '掠奪', '代言', '我儘', '我儘', '失敗', '', '投書', '', '決心', '昼寝', '鑑定', '', '述懐', '想像', '写生', '感心', '昼寝', '失笑', '揶揄', '写生', '欠伸', '自白', '彩色', '写生', '判然', '心中', '感服', '小便', '猶予', '失敬', '欠伸', '予定', '失望', '漫罵', '小便', '増長', '増長', '我儘', '我慢', '報道', '', '昼寝', '退屈', '加減', '一睡', '運動', '嘆賞', '佇立', '記憶', '珍重', '身動き', '挨拶', '鼓動', '軽蔑', '', '肥満', '御馳走', '乱暴', '教育', '交際', '同盟', '敬遠', '軽侮', '問答', '御馳走', '邂逅', '邂逅', '相当', '雑談', '自慢', '質問', '発達', '比較', '覚悟', '自慢', '感心', '謹聴', '呼吸', '弁護', '思案', '吶喊', '掃除', '感心', '喝采', '質問', '反対', '呈出', '大息', '加減', '決心', '御馳走', '御馳走', '要心', '放蕩', '放蕩', '放蕩', '放蕩', '放蕩', '放蕩', '自任', '放蕩', '卒業', '', '料理', '首肯', '批評', '', '訪問', '忠告', '写生', '写生', '変化', '写生', '主張', '発達', '感心', '感服', '捏造', '', '喜悦', '対話', '想像', '加減', '顧慮', '挑撥', '忠告', '著述', '出版', '記憶', '演説', '傍聴', '傾聴', '', '注意', '写生', '相違', '降参', '写生', '注意', '消沈', '紅葉', '昼寝', '', '感心', '御馳走', '感服', '動揺', '感服', '苦心', '相違', '判然', '苦心', '', '', '軽侮', '評価', '製造', '差別', '応用', '按排', '加減', '判然', '区別', '', '向上', '識別', '発達', '同情', '達観', '達観', '', '行列', '勉強', '一見', '意味', '尊敬', '存在', '外出', '卒業', '合点', '談話', '御無沙汰', '活動', '左右', '自慢', '合奏', '', '伴奏', '', '勘定', '往来', '恋着', '諷刺', '感心', '失恋', '関係', '心配', '返事', '加減', '散歩', '陥落', '決心', '来着', '失恋', '失敬', '頂戴', '頂戴', '間食', '留守', '失敬', '頂戴', '頂戴', '失敬', '仕付', '吹聴', '', '分配', 'らく', '附加', '見物', '歩行', '拝見', '我儘', '承知', '返事', '病気', '注意', '散歩', '', '下落', '成道', '慰安', '冷笑', '見当', '発揮', '', '保存', '晩酌', '攻撃', '喧嘩', '是非', '忠告', '', '本復', '按腹', '療治', '根治', '按摩', '治療', '位置', '顛倒', '根治', '昏睡', '閉口', '是非', '呼吸', '運動', '', '変化', '', '心配', '病気', '議論', '研究', '反駁', '学問', '弁解', '見当', '挨拶', '晩酌', '影響', '遠征', '', '経験', '我儘', '散歩', '苦心', '往来', '歩行', '探険', '裁縫', '探険', '', '膠着', '白状', 'ねばねば', '', '感得', '熟視', '', '催促', '焦慮', '始末', '煩悶', '逢着', '直覚', '', '予知', '発明', '吸収', '', '相違', '煩悶', '関係', '左右', '運動', '現前', '', '同情', '実行', '見聞', '白黒', '閉口', '御馳走', '容赦', '通過', '経験', '失敗', '訪問', '相違', '訪問', '', '晴々', '心配', '苦労', '影響', '加減', '加減', '形容', '反射', '微動', '感心', '', '挨拶', '尊敬', '返事', '化粧', '', '震動', '自慢', '返事', 'かさん', 'かさん', 'かさん', '混雑', 'かさん', '降参', '心配', '回復', '欠伸', '恐怖', '軽侮', '説明', '挨拶', '決心', '挨拶', '罵詈', '了解', '意味', '世話', '意味', '何とか', '参考', '答弁', '震動', '合図', '応対', '相当', '奉呈', '辟易', '注文', '自慢', '始末', '挨拶', '承知', '御馳走', '紹介', '対話', '紹介', '是非', '料理', '料理', '意味', '料理', '洋行', '洋行', '感服', '洋行', '拝聴', '', '形容', '相談', '謝罪', '同情', '訂正', '料理', '洋行', '思案', '料理', '相談', '相談', '戦争', '通信', '払底', '賛成', '返事', '頓着', '敬服', '同情', '承知', '朗読', '組織', '会合', '研究', '朗読', '創作', '心中', '自認', '朗読', '同情', '発揮', '芝居', '成功', '心中', '登場', '質問', '呈出', '研究', '隷属', '起臥', '一定', '朗読', '朗読', '心配', '下宿', '朗読', '探知', '傍聴', '散会', '成功', '朗読', '失敗', '想像', '奮発', '入会', '尽力', 'だかん', '賛助', '署名', '捺印', '賛成', '是非', '記入', '賛成', '連判', '入籍', '返事', '失敬', '消光', '休心', '参堂', '計画', '推察', '同意', '御馳走', '', '払底', '', '微笑', '歓迎', '連発', '出勤', '拝趨', '宥恕', '返事', '払底', '承知', '是非', '捕獲', '', '苦心', '苦心', '感謝', '料理', '流行', '諒察', '諒察', '招待', '使用', '記憶', '料理', '御馳走', '消化', '機能', '両立', '研究', '相当', '保持', '案出', '入浴', '入浴', '', '嘔吐', '掃除', '廓清', '吐出', '愚考', '相違', '増加', '', '戦勝', '是非', '入浴', '嘔吐', '研究', '到着', '心痛', '考究', '廃絶', '発見', '応用', '', '著述', '渉猟', '発見', '', '成功', '中絶', '嘔吐', '再興', '発見', '報道', '承知', '御馳走', '発見', '', '悪戯', '訪問', '留守', '病気', '厚遇', '返事', '診察', '病気', '何とか', '感心', '何とか', '何とか', '病気', '油断', '感動', '形容', '含嗽', '想像', '酷評', '感服', '使用', '病気', '相違', '翻訳', '翻訳', '借金', '催促', '', '批評', '意味', '返礼', '返礼', '降参', '降参', '承知', '降参', '恐縮', '差別', '感服', '失礼', '失敬', '拝聴', '退治', '挨拶', '紹介', '是非', '紹介', '', '講釈', '講釈', '苦心', '朗読', '朗読', '御馳走', '招待', '是非', '臨席', '是非', '出席', '喝采', '復讐', '経験', '応用', '経験', '経験', '', '経験', '記憶', '参堂', '是非', '在宿', '', '外出', '注意', '感動', '著述', '戦争', '辛苦', '戦争', '負傷', '列挙', '返事', '散歩', '戦死', '老衰', '往来', '真似', '按排', '想像', '約束', '', '面晤', '安心', '意識', '存在', '感応', '経験', '', '合奏', '合奏', '病気', '承知', '発熱', '謹聴', '睡眠', '', '診断', '', '冷笑', '病気', 'ストライキ', '返事', '返事', '決心', '経験', '感応', '写生', '病気', '追窮', '病気', '全快', '沈思', '暗合', '', '参考', '談判', '交渉', '相当', '予約', '手続き', '手続き', '手続き', '見物', '降参', '萎縮', '註釈', '苦労', '', '世話', '', '服薬', '全快', '相談', '当番', '返事', '安心', '全快', '約束', '履行', '覚悟', '計画', '弁解', '解釈', '失敗', '化粧', '', '反映', '希望', '希望', '満足', '奮発', '注文', '外出', '頓服', '心配', '厳命', '吶喊', '妨害', '理解', 'ぞくぞく', '病気', '全快', '意見', '満足', '運動', '我儘', '承知', '了解', '了解', '', '軽蔑', '沈黙', '', '競争', '談笑', '罵倒', '動作', '談話', '注目', '留守', '留守', '回向', '診察', '弁解', '我慢', '早死', 'いたずら', '', '類似', '経験', '説明', '談話', '身震い', '回向', '外出', '失恋', '失恋', '放逐', '呈出', '起臥', '感謝', '敬服', '躊躇', '虐待', '', '依頼', '同情', '忘却', '接近', '糾合', '進化', '軽蔑', '変心', '', '罵詈', '融通', '脱化', '', '挨拶', '交際', '動作', '注目', '', '', '研究', '一致', '朗読', '併行', '返事', '発見', '粘着', '感動', '断念', '割愛', '抹殺', '筆誅', '研究', '', '苦心', '落第', '意味', '案内', '心配', '遠慮', '苦労', '', '見当', '卒業', '研究', '勉強', '変化', '自慢', '相当', '失敬', '返事', '接待', '不足', '油断', '退屈', '挨拶', '頓着', '加減', '', '感嘆', '損害', '', '解釈', '不足', '道楽', '説教', '油断', '返事', '道楽', '加減', '削減', '同情', 'お待ち', '予言', '返答', '', '', 'にこにこ', '学問', '弁護', '加勢', '定義', '質問', '説明', '説明', '処置', '加減', '挨拶', '返事', '納得', '留守', '沈黙', '要求', '演説', '稽古', '演説', '専断', '乾燥', '脱俗', '傾聴', '傾聴', '結論', '注文', '洗濯', '挨拶', '頂戴', '拍手', '請求', '稽古', '批評', '自殺', '研究', '肉食', '釘付け', '処刑', '退屈', '欠伸', '返事', '講釈', '判然', '処刑', '絞殺', '絞殺', '朗読', '云々', '賛成', '加担', '絞殺', '想像', '執行', '洗濯', '成立', '一致', '仮定', '仮定', '承知', '応用', '平均', '演説', '研究', '遠慮', '', '往生', '工夫', '断念', '演説', '作用', '論及', '欠伸', '陥落', '失策', '報道', '区別', '関係', '再来', '保存', '弁護', '展覧', '見物', '質問', '返事', '心配', '翻訳', '同情', '見物', '我慢', '調和', '調和', '感心', '報知', '沈黙', '所有', '工事', '左右', '対立', '形容', '謙遜', '敬意', '挨拶', '鼎坐', '', '認識', '尊敬', '', '存在', '恐縮', '尊敬', '融通', '世話', '尊敬', '畏服', '生活', '予期', '返事', '失礼', '世話', '', 'おまけ', '辞儀', '心配', '安心', '存在', '関係', '承知', '恋着', '見当', '', '見物', ...]

サ変接続だけで絞ると
{'surface': '——', 'base': '*', 'pos': '名詞', 'pos1': 'サ変接続'} 
(ダッシュ?)が検知されるが、名詞じゃなくて記号じゃない?と思ったので除外。

34. 「AのB」

2つの名詞が「の」で連結されている名詞句を抽出せよ.

結果

noun_phrases = []
for sentense in result_mecab:
    for i in range(len(sentense)):
        if sentense[i]['surface'] == '' and sentense[i - 1]['pos'] == '名詞' and sentense[i + 1]['pos'] == '名詞':
            noun_phrases.append(sentense[i - 1]['surface'] + sentense[i]['surface'] + sentense[i + 1]['surface']) 
noun_phrases

Out[121]: 
['彼の掌', '掌の上', '書生の顔', 'はずの顔', '顔の真中', '穴の中', '書生の掌', '掌の裏', '何の事', '肝心の母親', '藁の上', '笹原の中', '池の前', '池の上', '一樹の蔭', '垣根の穴', '隣家の三', '時の通路', '一刻の猶予', '家の内', '彼の書生', '以外の人間', '前の書生', 'おさんの隙', 'おさんの三', '胸の痞', '家の主人', '主人の方', '鼻の下', '吾輩の顔', '自分の住', '吾輩の主人', '家のもの', 'うちのもの', '彼の書斎', '本の上', '皮膚の色', '本の上', '彼の毎夜', '以外のもの', '主人の傍', '彼の膝', '膝の上', '経験の上', '飯櫃の上', '炬燵の上', 'ここのうち', '供の寝床', '彼等の中間', '供の一', '例の神経', '性の主人', '次の部屋', '自分の勝手', '吾輩の方', '台所の板の間', '吾輩の尊敬', '向の白', '玉のよう', 'そこの家', '家の書生', '裏の池', '親子の愛', 'もっともの議論', '刺の頭', '鰡の臍', '彼等のため', '軍人の家', '代言の主人', '教師の家', '猫の時節', '吾輩の家', '家の主人', 'だらけの英文', '胃弱の癖', '後架の中', '平の宗', '月の月給', '当分の間', '下のよう', '今更のよう', '主人の述懐', '彼の友', '金縁の眼鏡', '主人の顔', '内の想像', '訳のもの', '利の大家', '金縁の裏', '吾輩の後ろ', '彼の友', '吾輩の輪廓', '顔のあたり', '上乗の出来', '顔の造作', '他の猫', '不器量の吾輩', '吾輩の主人', '斯産の猫', '斑入りの皮膚', '主人の彩色', '種の色', '身内の筋肉', '主人の予定', '座敷の中', '悪口の言いよう', '人の気', '彼の背中', 'こっちの便利', '自己の力量', '人間の不徳', '吾輩の家', '家の裏', '浩然の気', '小春の穏', '日の二', '茶の木の根', '西側の杉', '垣のそば', '他の庭', '純粋の黒', '彼の皮膚', '皮膚の上', '毛の間', '中の大王', '吾輩の倍', '嘆賞の念', '好奇の心', '彼の前', '小春の風', '垣の上', '梧桐の枝', '枚の葉', '枯菊の茂み', '真丸の眼', '人間の珍重', '双眸の奥', '吾輩の矮小', '額の上', '声の底', '吾輩の心臓', 'ここの教師', '教師の家', '良家の猫', '車屋の黒', '車屋の黒', '主義の的', '彼の名', '軽侮の念', '左の問答', '車屋の方', 'うちの主人', '車屋の猫', 'どこの国', '己の後', '教師の方', '車屋の黒', '相当の気焔', '畠の中', '黒の比較', '彼の鼻', '鼻の先', '彼の気焔', '自分の手柄', '墻壁の欠', '彼の答', '鼠の百', '掃除の時', 'うちの亭主', '石灰の袋', '椽の下', 'たちの野郎', '溝の中', '去年の臭気', '鼻の頭', '反対の結果', 'うちの亭主', '己の御蔭', '無学の黒', '背中の毛', '黒の子分', '以外の御馳走', '教師の家', '教師のよう', '吾輩の主人', '日の日記', '今日の会', '質の人', '人の妻君', '連中のうち', '吾輩の水彩', '屋の酒', '一廉の水彩', '吾輩の水彩', '野暮の方', '芸者の妻君', '愚劣の考', '自己の水彩', '知の明', '日の日記', '元の通り', '夢の裡', '画の未練', '夫子の所', '例の金縁', '眼鏡の美学', '君の忠告', '物の形', '色の精細', '今日のよう', '日記の事', '喜悦の体', '彼の今日', '今日の日記', '唯一の楽', '主人の情', '下のよう', '彼の一世', '会の演説', '時の傍聴', 'ハリソンの歴史', '小説の中', '僕の向う', '性の主人', '化の皮', '別の本', '金縁の眼鏡', '車屋の黒', '寺院の壁', '壁のしみ', '車屋の黒', '彼の光沢', '彼の眼', '吾輩の注意', '彼の元気', '元気の消沈', '例の茶園', '最後の日', 'たちの最後', '屋の天秤棒', '赤松の間', '段の紅', '紅白の山茶花', '半の南', '向の椽側', '冬の日脚', '吾輩の昼寝', '昼寝の時間', '教師の家', '無名の猫', '主人の許', '枚の絵', '彼の交友', '一の動物', '例の書斎', '窓の方', '鼻の先', '端書の色', '動物の正体', '自分の肖像', '主人のよう', '猫の中', '他の猫', '属の言語', '天の恵', '軽侮の口調', '人間の糟', '馬の糞', 'がちの事', '固有の特色', '猫の社会', '界の語', '髯の張り', '耳の立ち', '尻尾の垂れ', '無粋の数', '人間の眼', '吾輩の性質', '相貌の末', '猫の事', '吾輩の主人', '愛の第一義', '吾輩の肖像', '眼の前', '熊の画', '主人の膝', '膝の上', '二の絵', '舶来の猫', '内の一疋', '机の角', '西洋の猫', '日本の墨', '右の側', '猫の春', '猫の年', '三の端書', '吾輩の顔', '尊敬の意', '吾輩の御蔭', '門の格子', '屋の梅', '時のほか', '主人の膝', '玄関の方', '年賀の客', '酒の相手', '牡蠣の根性', '主人の所', '主人のよう', '去年の暮', '羽織の紐', 'どっちの方角', '木綿の紋付', '羽織の袖口', '椎茸の傘', '吾輩の頭', '車屋の黒', 'ピヤノの伴奏', '巌のよう', '実のところ', '大抵の婦人', '婦人の七', '失恋のため', '胃弱のせい', '明治の歴史', '君の女', '口取の蒲鉾', '所の令嬢', '御存じの方', '旅順の陥落', '女連の身元', '木綿の紋付', '兄の紀', '結城紬の綿', '針の目', '主人の服装', '失恋のため', '蒲鉾の残り', '一般の猫', '以後の猫', 'グレーの金魚', '車屋の黒', '蒲鉾の一切', '細君の留守', '前のこと', '麭の幾分', '卓の上', '壺の中', '匙の砂糖', '自分の皿', '皿の上', '分量の砂糖', '自分の皿', '皿の上', '皿の上', '両人の皿', '盛の砂糖', '壺の中', '匙の砂糖', '壺の中', '櫃の上', '櫃の上', '餅の切れ', '最後の一', '椀の中', '主人の威光', '汁の中', '餅の死骸', '袋戸の奥', '卓の上', '質のもの', '独言のよう', '対句のよう', 'ほかの病気', '本当のところ', '細君の肩', '主人の前', '膝の上', '書斎の椽側', '障子の隙', '人の本', '机の上', '下のよう', '池の端', '池の端', '端の待合', '待合の前', '裾模様の春着', 'うちの猫', '丹の角', '撫肩の恰好', '薄紫の衣服', '懐手のまま', '人間の心理', '主人の今', '今の心', '哲人の遺書', '一道の慰安', '無用のもの', '主人のよう', '自己の面目', '真正の日記', '胃の具合', '人間の日記', '日記の本', '彼の説', '胃病の源', '胃病の源', '大抵の胃病', '竜馬のよう', '臓腑の位置', '綿のよう', '腸の中', '胃の働き', '者の迷亭', '何等の功', '年来の胃弱', '限りの方法', '杯の正宗', '主人の心', '吾輩の眼球', '眼球のよう', '日記の上', '一種の見地', 'すべての病気', '父祖の罪悪', '自己の罪悪', '罪悪の結果', 'うちの主人', '自己の面目', '君の説', '自分の胃弱', '違いの挨拶', '胃弱の病人', '大抵のもの', '車屋の黒', '黒のよう', '横丁の肴', '新道の二絃琴', '二絃琴の師匠', '師匠の所', '所の三', '毛のよう', '経験のため', '大抵のもの', '教師の家', '大の贅沢', '口の贅沢', '文章の贅沢', '中の人間', '人間の名', '自分の苦心', '店先の看板', '屋の看板', 'マーカスの上', '友人の迷惑', '中の人間', '人間の名前', '吾輩のよう', '贅沢の結果', '通りの餅', '通りの色', '椀の底', '餅の上皮', '釜の底', '底の飯', '時のよう', 'ものの味', '一の真理', 'すべての動物', '底の様子', '供の足音', '雑煮の事', '椀の中', '全体の重量', '椀の底', '餅の角', '吾輩の主人', '煩悶の際', '二の真理', 'すべての動物', '事物の適', '餅の肉', '供の唱歌', '煩悶の極', '何等の功', '何等の関係', '前足の助け', '右の方', '口の周囲', '訳のもの', '餅の中', '餅の魔', '前足の運動', '三の真理', 'ところのもの', '餅の魔', '縮緬の紋付', '人間の同情', '在来の通り', '時のよう', '餅の中', 'すべての安楽', '四の真理', '新道の二絃琴', 'さんの所', '所の三', '物の情け', '三の険', '異性の朋友', '朋友の許', '女性の影響', '垣の隙', '曲線の美', '端正の態度', '吾輩の傍', '教師の家', '去年の暮', 'あなたのうち', '欣羨の意', '供のよう', '鼻の孔', 'あなたの所', '間の姫小松', '障子の内', '祐筆の妹', 'かさんの甥', '甥の娘', '祐筆の妹', '様の妹', '祐筆の妹', 'かさんの甥', '甥の娘', 'かさんの甥', '甥の娘', '様の何', '祐筆の妹', 'かさんの甥', '甥の娘', '理詰の虚言', '障子の中', '二絃琴の音', 'さんの声', '雑煮の元気', '例の茶園', '建仁寺の崩れ', '車屋の黒', '枯菊の上', '黒の性質', '教師の飯', '吾輩の有名', '子の向う', '罵詈の言語', '子の何とか', '参考のため', '手持無沙汰の体', '黒のうち', 'うちの神', '黒の畜生', '初春の長閑', '彼の足', '足の下', '鮭の骨', 'しゃけの一切', '車屋の黒', '腕まくりの代り', '右の前足', '肩の辺', '例の神', 'さんの大声', '注文の声', '四隣の寂寞', '挨拶のしよう', '自分のため', '本当の御馳走', '吾輩の頭', 'からだの泥', '西川の牛', '座敷の中', '主人の笑い声', '主人の傍', '木綿の紋付', '紋付の羽織', '小倉の袴', '体の男', '主人の手', '塗りの巻煙草', '客の名前', '君の友人', '主客の対話', '君の事', '客の前', '方の事', '膝の上', '吾輩の頭', 'ボイの方', '鴨のロース', '小牛のチャップ', '私の方', 'つもりのところ', 'なめくじのソップ', '蛙のシチュ', 'シチュの形容', '花瓶の水仙', '残念の気色', '何の気', '客の謝罪', '通りの西洋', '戦争の通信', 'トチメンボーの材料', '横浜の十', '当分の間', '私の方', '派の俳人', '敬服の至り', '飯の時刻', '吾輩の咽喉', '主客の耳', '承知の通り', '方面の研究', '去年の暮', '文章の類', '古人の作', '同人の創作', '古人の作', '白楽天の琵琶', '行のよう', '蕪村の春風', '曲の種類', '近松の心中', '浄瑠璃の近松', '家の近松', '吾輩の頭', '主人の顔色', '作中の人物', '時代の人', '顔の横手', '登場の人物', '明瞭の智識', '娼家の下婢', '茶屋の下女', '部屋の助役', '仲居の性格', '一定の場所', '男の人間', '主人の顔', '君のほか', '家の気', '何の役割', '会場の窓', '入会の上', '的の主人', '員の名簿', '紫の風呂敷', '版の帳面', '署名の上', '主人の膝', '膝の前', '連中の名', '念の体', '賛成の意', '謀叛の連判', '知名の学者', '無上の光栄', '返事の勢', '畳の上', '皿の中', '中のカステラ', '今朝の雑煮', '子の胃', '胃の中', '皿のカステラ', '机の上', '先生の手紙', '新年の御慶', '先生の手紙', '大兄の消極', '未曾有の新年', '程の多忙', '男の事', '一刻のひま', 'トチメンボーの御馳走', '払底の為', '例の通り', '男爵の歌留多', '協会の新年', '会の連発', '当分の間', '拝趨の礼', '光来の節', '何の珍味', '払底の為', '孔雀の舌', '承知の通り', '肉の分量', '小指の半ば', '大兄の胃', '羽の孔雀', '普通の鳥屋', '感謝の意', '孔雀の舌', '舌の料理', '全盛の砌', '風流の極度', '世紀の頃', '饗宴の図', '孔雀の料理', '近頃の如く', '胃弱の標準', '家の説', '方丈の食', '胃の人', '大兄の如く', '多量の滋味', '一の秘法', '種の方法', '廓清の功', 'かくの如く', '此等の事', '世紀の今日', '交通の頻繁', '宴会の増加', '国の国民', '嘔吐の術', '西洋の事情', '明治の社会', '諸家の著述', '発見の端緒', '残念の至', '孔雀の舌', '舌の御馳走', '小生の都合', '大兄の為', '白磁の水仙', '軸の梅', '障子の中', '鉢の葉蘭', '葉蘭の影', '人間の取扱', '自分の境遇', '猫の方', '猫の方', '私の脈', '膝の上', '猫の病気', '大事の猫', '吾輩のうち', '様の何とか', '様の何とか', '何とかの何とか', '何とかの下女', '頃のよう', '国事の秘密', '時のよう', '表通りの教師', '教師の所', '吾輩の主人', '何の呪い', '相応の作法', '毛の病気', 'あいつの御蔭', '書斎の中', '沈吟の体', 'さんの所', '無名氏の作', '僕の翻訳', '読本の中', '孔雀の舌', '舌の讐', '君のよう', '借金の催促', '近来の名文', '君の審美', '眼の本家', '本家のよう', '師の遺誡', 'いその巨人', '金縁の眼鏡', '眼鏡の奥', '平等の水彩', '画の比', '感服の至り', 'トチメンボーの亡魂', '君の紹介', '迷惑の事', '自分の姓名', '姓名のこと', '初対面の人', '自分の名前', '名前の講釈', '唐皮の煙草', '腹の底', '腹の底', '鼻の孔', '咽喉の出口', '知名の文士', '近松の世話物', '何の役', '孔雀の舌', 'トチメンボーの復讐', '行徳の俎', '行徳の俎', '教場の経験', '行徳の俎', '何の事', '床の方', '風呂の帰りがけ', '行徳の俎', '去年の暮', '行徳の俎', '先生の不思議', '暮の二', '例の東風', '参堂の上', 'ストーブの前', 'バリー・ペーンの滑稽', '静岡の母', '供のよう', 'いろいろの注意', '明治の文壇', '御国のため', 'お正月のよう', '僕の小学校', '時代の朋友', '今度の戦争', '母の手紙', '胃の具合', '町の方', '町の方', '坂の方', '頭の中', '土手の上', '例の松', '松の真下', '例の松', '鴻の台', '鴻の台', '松の下', '土手の上', '他の松', '往来の方', 'あすこの所', '昔の希', '宴会の席', '首縊りの真似', '台の上', '縄の結び目', '他のもの', '元の所', '寒月の顔', '羽織の紐', '下の幽冥', '一種の因果', '火鉢の灰', '昨年の暮', '暮の事', '向島の知人', '知人の家', '近来の快事', '博士の夫人', '私のそば', '譫語のうち', '私の名', '時のよう', '周囲の空気', '頭の中', '当人の迷惑', '飛花落葉の感慨', '総身の活気', '花川戸の方', '橋の上', '提灯の火', 'ビールの処', '遥かの川上', '川上の方', '私の名', '水の面', '気のせい', '私の名', '遠くの方', '川の底', '子の声', '自分の声', '子の声', '私の耳', '浪の下', '水の下', '欄干の上', '糸のよう', '自分の鼻', '鼻の頭', '水の中', '橋の真中', '後ろの間', '羽織の紐', '僕の経験', '教授の材料', '人間の感応', 'さんの病気', '門の内', '沈思の体', '迷亭の眼中', '去年の暮', '暮の事', '去年の暮', '前歯のうち', '御歳暮の代り', '今日の語り物', '摂津の三', '詰の談判', '相当の席', '正当の手続き', '鈴木の君代', '正当の手続き', '鈴木の君代', '玉のよう', '度の願', '身上の苦労', '供の世話', '薪水の労', '枚の堵', 'ものの胸中', '無限の感慨', '女の事', '今の内', '有為転変の理', '生者必滅の道', '夫の妻', '西洋の諺', '御存じの癖', '学校の卒業生', '計画の腰', '僕の英語', '妻のよう', '生者必滅の理', '細君の英語', '何の気', '書斎の開き戸', '自分の妻', '縮緬の羽織', '僕の舌', '呑のよう', '格別の事', '細君の厳命', '僕の前', '胃の中', '茶の間の柱時計', '時の音', '何の苦', '先生の名医', '夢のよう', '細君の意見', '僕の義理', '自分の義務', '君のよう', '独り言のよう', '障子の蔭', '細君の咳払い', '吾輩の主人', '主人の我儘', '今の話', '何の所得', '太平の逸民', '競争の念', '日常の談笑', '穴の動物', '気の毒の至り', '普通の半可通', '形の厭味', '人の談話', '子の様子', 'さんの庭口', '流れの雲', '庭の面', '元日の曙光', '人の気合', '泥足のまま', '座蒲団の真中', '子の事', '障子のうち', '人間の位牌', '信女の誉', '誉の字', '蒲団の上', 'さんの声', '下女の声', '座蒲団の上', '木彫の猫', '猫のよう', '人様の事', '表通りの教師', '教師のうち', 'うちの野良猫', '我慢のしどころ', '三毛のよう', '三毛のよう', '下女の考え', '下女の顔', '毛の代り', ...]

35. 名詞の連接

名詞の連接(連続して出現する名詞)を最長一致で抽出せよ.

nouns = []
for sentense in result_mecab:
    for morphene in sentense:
        if morphene['pos'] == '名詞':
            noun.append(morphene['surface'])
        else:
            if len(noun) >= 2:
                nouns.append(''.join(noun))
            noun = []
    # 文が名詞で終わる場合
    if len(noun) >= 2:
        nouns.append(''.join(noun))
    noun = []
nouns
Out[154]: 
['人間中', '一番獰悪', '時妙', '一毛', 'その後猫', '一度', 'ぷうぷうと煙', '邸内', '三毛', '書生以外', '四五遍', 'この間おさん', '三馬', '御台所', 'まま奥', '住家', '終日書斎', '勉強家', '勉強家', '勤勉家', '二三ページ', '主人以外', '限り吾輩', '朝主人', '一番心持', '二人', '一つ床', '一人', '最後大変', '——猫', '神経胃弱性', '物指', '尻ぺたをひどく', '言語同断', '家内総がかり', '筋向', '白君', '度毎', '白君', '先日玉', '四疋', '三日目', '四疋', '白君', '我等猫族', '家族的生活', '三毛君', '所有権', '我々同族間', '目刺', '一番先', '彼等人間', '我等', '吾人', '白君', '三毛君', 'いくら人間', '間違いだらけ', '後架先生', '宗盛', '宗盛', '月給日', '水彩絵具', '毎日毎日書斎', '人の', '自ら筆', '眼鏡越', '一室内', '以太利', '大家アンドレア・デル・サルト', '露華', '寒鴉', 'これ一幅', '活画', '翌日吾輩', '一分', '辛棒', '今吾輩', '今吾輩', '波斯産', 'ただ一種', '上不思議', '盲猫', '心中ひそか', 'いくらアンドレア・デル・サルト', '一分', 'あと大', '壊わし', '馬鹿野郎', '馬鹿野郎', '辛棒', '馬鹿野郎呼わり', '平生吾輩', '馬鹿野郎', '元来人間', 'みんな増長', '先どこ', '数倍', '十坪', '腹加減', '穏かな日', '二時頃', '昼飯後', '運動かたがた', '一本一本', '杉垣', '前後不覚', '庭内', '忍び入り', '黒猫', '柔毛', '出ずるよう', '猫中', '杉垣', '二三枚', 'ぐべき力', '険呑', '時吾輩', '言葉付', '誰だい', '乱暴猫', '同盟敬遠主義', '一体車屋', '大分強そう', 'おれなんざ', '茶畠', '箆棒め', 'あらら', 'その後吾輩', '車屋相当', '不徳事件', '日例', '茶畠', '何匹', '元来黒', '近付', '事彼', '手柄話', '欠所', '三四十', '二百', '一人', '何鼠', 'こん畜生', '泥溝', '奴め最後っ屁', '二三遍', '百年目', '考げ', '——一', '五銭', '壱円五十銭', 'おい人間', '胡魔化', '鼠以外', '水彩画', '十二月一日', '大分放蕩', '元来放蕩家', '放蕩家', '水彩画', '料理屋', '水彩画家', '水彩画', '通人論', '水彩画', '批評眼', '二日', '十二月四日', '水彩画', '通り下手', '水彩画', '水彩画家', '所謂通人', '水彩画', '翌日例', '金縁眼鏡', '美学者', '結果今日', '美学者', '美学者', 'アンドレア・デル・サルト事件', '情線', '滑稽的美感', '仏国革命史', '日本文学会', '演説会', '傍聴者', '百名', '皆熱心', '文学者', '歴史小説セオファーノ', '歴史小説', '女主人公', '鬼気人', '僕同様', '神経胃弱性', '差支', 'ただ化', '美学者', '時ゃ別', 'けらけら', '美学者', '美学者', '模様画', '君注意', '半分降参', 'その後跛', '眼脂', '一杯', '最後屁', '肴屋', '二三段', '三間半', '南向', '木枯', '毎日学校', '水彩画', '功能', '一枚', '絵端書', '年始状', '険呑', '絵端書', '絵端書', '吾輩猫属', 'いくら猫', '粗末簡便', '一列一体', '自家固有', '十人十色', '人間界', '鼻付', '張り具合', '立ち按排', '垂れ加減', '粋無粋', '同類相', 'いくら人間', '面構', '征露', '二年目', '大方熊', '絵端書', '四五疋', '春一日', '不思議そう', '絵端書', '乍恐縮', '伝声', '願上候', '明らさま', '眼付', '一個', '眼付', 'チリン', 'チリン', '大方来客', '肴屋', '梅公', '顔付', '寒月さん', 'さそう', '牡蠣的主人', '黒木綿', '紋付羽織', 'べら者', '五分', '寒月君', '一枚', '君歯', 'なんざ', '例の', '寒月君', '賞め', '近頃大分', '自慢そう', '賞め', '一昨夜', '合奏会', '寒月君', '三挺', '三挺', '二人', '元来主人', '枯木寒巌', '顔付', '七割弱', '諷刺的', '牡蠣的生涯', '吾輩猫', '寒月君', '女連れ', '寒月君', '半分前歯', 'なに二人', '余所余所', '寒月君', '黒木綿', '紋付羽織', '紀念', '二十年来着', '綿入', 'いくら結城紬', 'ふだん着', '余所ゆき', '寒月君', '普通一般', '桃川如燕以後', '偸ん', '吾等猫族', '留守中', '四五日前', '二人', '主人夫婦', '毎朝主人', '麺麭', '砂糖壺', '一匙', 'らく両人', '一杯', '一杯', '一杯', '一杯一杯一杯', '山盛', '一匙', '利己主義', '山盛', '甞め', '寒月君', '翌日食卓', '九時頃', '六切', '七切', '一切れ', '廻わし', 'あなた澱粉質', '大変功能', 'せんだってじゅう', '毎日毎日', 'こないだうち', '功能', '辛防', '五六分', '日記帳', '神田辺', 'さそう', '喜多床', '宝丹', '一人芸者', '源ちゃん昨夕', '旅鴉', '源ちゃん', '物外', '一日記', '暗室内', '我等猫属', '行屎送尿', '二三杯', '本色', '二三日朝飯', '功能', '是非香の物', 'すべて胃病', '源因', '一週間', '按腹揉療治', '普通の', '皆川流', '一二度', '安井息軒', '按摩術', '坂本竜馬', '癒ら', '昏睡病', '一度', '是非固形体', '一日牛乳', '横膈膜', '五六分', '横膈膜', '美学者', '功能', 'すべて駄目', '昨夜寒月', '三杯', '毎晩二三杯', '永持', '上日記', '大分研究', '見当違い', '虚栄心', '今朝雑煮', '昨夜寒月君', '肴屋', '三毛', '麺麭', 'ため沢庵', '二切', '小説家', '贅沢屋', '贅沢屋', '小説家', '日自分', '小説中', '目付よう', '巴理', '裁縫屋', 'Z.Marcus', '一人', '小説中', '一日巴理', '牡蠣的主人', '一辺', '奥座敷', '兎さん', '椀底', '一辺', '歯答え', '歯答え', '美学者迷亭先生', '尽未来際方', '際吾輩', '直覚的', '適不適', '極尻尾', '功能', '振り損', '立て損', '事これ', '辛防', '左右交', '一度', '後足二本', '顔中', '一つ所', '台所中あちら', '一生懸命餅', 'あら猫', '馬鹿野郎', '大分見聞', '通り四つ這', '眼付', '寒月君', '情け容赦', '奥座敷', '事気', '師匠さん', '三毛子', '三毛子', '美貌家', '一通り', '険突', '杉垣', '三毛子', 'さ加減', '静粛端正', '関ら', '天鵞毛', '三毛子さん三毛子さん', '三毛子', 'あら先生', '鈴がちゃらちゃらと', 'あら先生', '吾等猫属間', '三毛子', '三毛子', '先生先生', '師匠さん', 'たちゃらちゃら', 'ゃらちゃらちゃらちゃら続け様', '師匠さん', '大変あなた', '吾身', '三毛子', '咽喉仏', '師匠さん', '師匠さん', '御身分', '師匠さん', '三毛子', '全体何', '師匠さん', '師匠さん', '六十二', '六十二', '天璋院様', '先きの', '天璋院様', '天璋院様', '天璋院様', '天璋院様', '祐筆の', '先きの', 'ところ天璋院様', '天璋院様', '先きの', '師匠さん', '三毛', '三毛', '三毛子', '師匠さん', 'あなた大変色', '心配そう', '認むるや否や', 'いくら教師', '面ら', '人つけ', '黒君', '変元気', 'なんざあ年', '向う面め', '手め', '正月野郎', '正月野郎', 'まま無言', '神さん', '俗了', '一切れ二銭三厘', '泥だらけ', '感投詞', '二切', 'びった事', '黒君', '神さん', '西川さん', '西川さん', '一斤', '一斤', '牛肉注文', 'へん年', '一遍牛肉', '牛肉一斤', '四つ足', '一斤', '驚ろ', '真面目そう', '書生体', '春慶塗り', '巻煙草入れ', '越智東風君', '紹介致候水島寒月', '寒月君', '美学者迷亭君', '是非いっしょ', '西洋料理', '午飯', 'アンドレア・デル・サルト事件', '君何', '誂ら', '君仏蘭西', '英吉利', '天明調', '万葉調', '西洋料理', '——全体', '何迷亭', '客はさ', '好奇的', '感投詞', 'めんぼう', 'おいトチメンボー', '二人前', 'メンチボー', 'メンチボー', '西洋通', '気の毒様', '生憎様', 'メンチボー', '二人前', '二十銭銀貨', '料理番', '大変トチメンボー', '迷亭先生', '日本新聞', '意気込', '前め', '十五番', '生憎様', '気の毒そう', '内材料', '日本派', 'えさよう', '気の毒様', 'アハハハそれ', '自分一人', '二人', '橡面坊', '午飯', '大変空腹', '東風君', '文学美術', '朗読会', '毎月一回会合', '一回', '朗読会', '詩歌文章', '琵琶行', '春風馬堤曲', '心中物', '二人', '戯曲家', '藪睨み', '東風子', '一人', '嬢さん', '一回', '心中物', '東風子', '東風子', '朗読家', '法学士', '口髯', '心配そう', '東風子', '文芸家', '一回', '東風子', '東風子', '四五人下宿', '朗読会', '窓下', '耐ら', '一度', '驚ろいた事', '驚ろ', 'るい事', 'それ限り', '一回', '朗読会', '咽喉仏', '二回', '消極的', '賛助員', '大事そう', '小菊版', '現今知名', '文学博士', '文学士連中', '勢揃', '賛成員', '牡蠣先生', '掛念', '連判状', '顔付', '東風子', '菓子皿', '一口', '雑煮事件', '東風子', '菓子皿', '東風子', '迷亭先生', '申納候', '迷亭先生', '其後別', '艶書', '候間', '休心可', '下候', '年始状', '世間的', '一寸参堂', '消極主義', '限り積極的方針', '此千古未曾有', '毎日毎日目', '推察願上候', '迷亭君', '東風子', '候処', '材料払底', '為め其意', '遺憾千万', '存候', '歌留多会', '審美学協会', '新年宴会', '其明日', '鳥部教授歓迎会', '其又明日', '謡曲会', '俳句会', '短歌会', '新体詩会等', '幕無し', '候為め', '得已賀状', '候段', '下度候', '度心得', '御座候', '寒厨何', '心掛居候', '材料払底', '為め', '兼候', '申候', '通り孔雀一羽', '舌肉', '胃嚢', '是非共二三十羽', '可ら', '存候', '所孔雀', '動物園', '浅草花屋敷等', '鳥屋抔', '苦心此事', '御座候', '此孔雀', '往昔羅馬全盛', '一時非常', '候もの', '豪奢風流', '居候次第', '諒察可', '下候', '十六七世紀', 'レスター伯', '候節', '候様記憶致候', '候饗宴', '儘卓上', '横わり', '料理史', 'さそう', '如く御馳走', '歴史家', '羅馬人', '二度三度', '候由', '二度', '三度', '食饌', '健胃', '消化機能', 'の必要', '入浴致候', '入浴後一種', '浴前', '胃内', '胃内廓清', '吐出致候', '愚考致候', '廿世紀', '今日交通', '軍国多事征露', '二年', '候折柄', '吾人戦勝国', '是非共羅馬人', '此入浴嘔吐', '候事', '自信致候', '切角', '胃病患者', '此際吾人西洋', '古史伝説', '所謂禍', 'の功徳', '平素逸楽', '存候', '此間中', 'モンセン', 'スミス等諸家', '存候', '候事', '嘔吐方', '候次第', '発見次第', '報道可', '承知可', '下候', '申上候トチメンボー', '右発見後', '存候草々不備', '新年匆々', 'ひま人', '四五日', '青軸', '一両度三毛子', '師匠さん', '手水鉢', '三毛', '私共', '一日', '医者様', '三毛', '診察場', '三毛', '天璋院様', '天璋院様', '馬鹿叮嚀', '旧幕時代', '毎朝無作法', '朝風呂場', '一日', '吾等猫', '維新前', '屋敷町', '一人', '野良猫さ', '三毛', '三毛子', '師匠さん', '当分多忙', '年始状', '迷亭君', '今翻訳', '文章だい', '全体どこ', '二読本', '二読本', '二読本', '二読本', '口髯', '先生近頃名文', '催促状', '審美眼', '迷亭先生', '審美眼', '禅坊主', '燈国師', '巨人引力', '巨人引力', 'め念', '三度', '巨人引力', '巨人引力', '巨人引力', '巨人引力', 'それぎりかい', '驚ろ', '降参降参', '一人', '一人', '喋舌', '本もの', '水彩画', '差別黒白平等', '水彩画', '疳違い', '寒月君', '迷亭先生', '越智東風', '越智東風', '是非紹介', 'んだい', '迷亭君', '大変気', '迷亭先生', '金唐皮', '煙草入', '越智東風', '越智こ', '文学熱', '迷亭先生', '戸迷い', '朗読会', 'それそれ', '迷亭先生', '険呑', '朗読会', 'せんだってトチメンボー', '二回', '金色夜叉', '是非出席', '寒月君', '笑い方', '一度', '迷亭君', '永年教師', '胡魔化', '社交上', '迷亭先生', '二十七日', '上是非文芸上', '滑稽物', '夜間外出', '冷水浴', '迷亭先生', '仕合せ者', '働ら', '節季師走', '——僕', '小学校時代', '一番仕舞', '今度限り', 'なおのこと気', '晩飯', '十二三行', '六尺以上', '十行内外', '一日', '富士見町', '土手三番町', '神楽坂', '土手下', '無常迅速', '何だい', '断句', '台の', '土手三番町の', '何十本', '二三', '希臘人', '一人', '約束通り', '拠処差支え', 'んだい', '一足違い', '意識下', '幽冥界', '現実界', '因果法', '空也餅', '私の', '空也餅', '忘年会兼合奏会', '十五六人令嬢', '○子さん', '三日前', '通りどこ', '驚ろ', '迷亭先生', '睡眠剤', '否や一種いや', '固形体', '○○子さん', '○子さん', 'すべて曖', '一杯', '一度', '吾妻橋', '一台馳', '札幌ビール', '今時分人', '一足二足', '三度目', '○子', '○子', '間違', 'ハハハハこれ', 'ゼームス教授', '写生文', '○子さん', '迷亭先生', '二三日前年始', 'んだい', '僕の', 'みんな去年', '空也餅', 'いや日', '二十日頃', '三味線もの', '三十三間堂', '三十三間堂', '三十三間堂', '手詰', '眼付', '君代さん', '晩飯', '四時', '四時', '君代さん', '四時', '君不思議', 'なに細君', '風船玉', '一度', '一度', '洒掃薪水', '四五枚', '堵物', '靴脱', '四時前', '甘木医学士', '二時頃', '帰り次第', '杏仁水', '四時前', '顔付', '四時', '四時', "manyaslip'twixtthecupandthelip", '耶蘇学校', '君等', '通り風呂場', '甘木君', '三時', '四時', '一時間', 'ぴかついて黒縮緬', '有形無形', '一ぷくふかしているとようやく甘木先生', '注文通り', '甘木先生', '険呑', '三十分', ...]

36. 単語の出現頻度

文章中に出現する単語とその出現頻度を求め,出現頻度の高い順に並べよ.

import collections
word_counter = collections.Counter()
for sentense in result_mecab:
    word_counter.update(morphene['surface'] for morphene in sentense)
    
word_counter.most_common()
Out[195]: 

[('', 9194), ('', 7486), ('', 6873), ('', 6772), ('', 6422), ('', 6268), ('', 6071), ('', 5515), ('', 5339), ('', 3989), ('', 3813), ('', 3231), ('', 3225), ('', 2479), ('ない', 2391), ('', 2367), ('', 2328), ('から', 2043), ('ある', 1730), ('', 1612), ('', 1568), ('', 1531), ('いる', 1251), ('', 1207), ('', 1034), ('する', 998), ('', 992), ('もの', 981), ('です', 973), ('', 973), ('云う', 937), ('主人', 932), ('よう', 697), ('', 683), ('この', 649), ('', 636), ('', 617), ('', 602), ('その', 576), ('', 554), ('そう', 554), ('', 539), ('なる', 531), ('', 513), ('', 509), ('なら', 483), ('吾輩', 481), ('', 477), ('ます', 458), ('じゃ', 448), ('', 433), ('これ', 414), ('\u3000', 411), ('なっ', 404), ('それ', 395), ('', 364), ('', 356), ('', 350), ('でも', 345), ('', 344), ('迷亭', 343), ('ませ', 330), ('いい', 320), ('——', 319), ('ところ', 315), ('まで', 313), ('', 312), ('', 311), ('', 302), ('', 299), ('', 294), ('まし', 289), ('寒月', 286), ('', 282), ('', 277), ('先生', 274), ('見る', 273), ('人間', 272), ('だろ', 270), ('くらい', 269), ('', 268), ('たら', 264), ('さん', 260), ('なく', 258), ('', 250), ('あり', 249), ('', 248), ('だけ', 245), ('', 245), ('出来', 244), ('云っ', 241), ('また', 238), ('', 233), ('思っ', 232), ('ばかり', 231), ('', 230), ('ごとく', 225), ('あっ', 221), ('どう', 220), ('って', 216), ('細君', 213), ('など', 205), ('', 199), ('', 199), ('', 195), ('', 194), ('', 194), ('そんな', 194), ('あの', 189), ('しかし', 185), ('てる', 182), ('より', 181), ('ながら', 179), ('ので', 175), ('自分', 175), ('少し', 172), ('', 169), ('ちょっと', 169), ('でしょ', 162), ('', 159), ('', 158), ('', 154), ('かい', 153), ('うち', 152), ('', 152), ('ほど', 150), ('聞い', 150), ('知れ', 150), ('ただ', 150), ('', 149), ('として', 149), ('だって', 148), ('', 147), ('思う', 146), ('たい', 146), ('行っ', 144), ('', 143), ('', 143), ('', 143), ('', 142), ('ため', 141), ('', 141), ('見え', 139), ('よく', 138), ('出し', 137), ('', 134), ('', 133), ('たり', 133), ('かも', 132), ('', 131), ('知ら', 127), ('', 127), ('', 126), ('もう', 124), ('', 121), ('られ', 121), ('こんな', 120), ('金田', 119), ('どこ', 118), ('東風', 118), ('たる', 117), ('という', 116), ('ねえ', 116), ('今日', 116), ('まだ', 115), ('いや', 114), ('通り', 114), ('なけれ', 113), ('', 112), ('', 111), ('ざる', 111), ('くる', 109), ('さえ', 109), ('れる', 109), ('', 108), ('', 108), ('まあ', 107), ('', 107), ('こう', 107), ('聞く', 106), ('なかっ', 106), ('', 104), ('なり', 104), ('持っ', 103), ('あれ', 103), ('馬鹿', 103), ('', 102), ('行く', 101), ('', 101), ('', 100), ('', 99), ('沙弥', 99), ('ええ', 99), ('', 98), ('', 98), ('とか', 97), ('', 97), ('ここ', 97), ('やる', 96), ('大きな', 95), ('話し', 94), ('', 94), ('分ら', 93), ('ちゃ', 93), ('やっ', 93), ('', 93), ('今度', 93), ('考え', 92), ('しまっ', 91), ('少々', 90), ('くれ', 90), ('云わ', 89), ('ござい', 89), ('まい', 89), ('大変', 88), ('', 88), ('', 88), ('', 87), ('面白い', 87), ('', 86), ('いくら', 86), ('', 86), ('あまり', 85), ('鈴木', 85), ('あなた', 85), ('', 84), ('', 84), ('云い', 84), ('もっ', 84), ('', 83), ('', 83), ('出来る', 83), ('なかなか', 82), ('学校', 82), ('', 82), ('もっとも', 81), ('なるほど', 80), ('出す', 80), ('やはり', 80), ('どうも', 79), ('', 79), ('さあ', 78), ('', 77), ('', 76), ('', 76), ('ましょ', 75), ('すれ', 75), ('つけ', 75), ('まま', 74), ('運動', 74), ('彼等', 74), ('以上', 74), ('来る', 73), ('仕方', 73), ('ヴァイオリン', 73), ('全く', 73), ('もし', 73), ('もん', 73), ('つい', 72), ('のみ', 72), ('あろ', 72), ('つもり', 72), ('だい', 71), ('', 71), ('', 71), ('', 71), ('早く', 71), ('それから', 70), ('何だか', 70), ('決して', 70), ('のに', 70), ('見える', 70), ('ほか', 68), ('出る', 68), ('', 67), ('', 67), ('かく', 67), ('思わ', 66), ('', 66), ('なんか', 66), ('入れ', 65), ('大分', 65), ('', 65), ('', 65), ('そんなに', 65), ('べき', 65), ('あと', 65), ('這入っ', 65), ('', 65), ('みんな', 64), ('教師', 64), ('食っ', 64), ('必ず', 63), ('それで', 63), ('心配', 63), ('相違', 63), ('あら', 63), ('おい', 63), ('たく', 63), ('', 62), ('', 62), ('', 62), ('いつ', 62), ('そりゃ', 61), ('', 61), ('なさい', 61), ('行か', 61), ('思い', 60), ('ところが', 60), ('', 60), ('', 60), ('書斎', 60), ('', 60), ('まず', 59), ('事件', 59), ('同じ', 59), ('だから', 59), ('はず', 58), ('', 58), ('始め', 57), ('いえ', 57), ('なに', 57), ('', 57), ('において', 57), ('知っ', 57), ('', 56), ('立て', 56), ('', 56), ('', 56), ('すると', 56), ('奥さん', 56), ('', 55), ('あんな', 55), ('しばらく', 55), ('泥棒', 55), ('気の毒', 55), ('やり', 55), ('', 55), ('生徒', 55), ('帰っ', 55), ('るる', 54), ('駄目', 53), ('無論', 53), ('なくっ', 52), ('云え', 52), ('かけ', 52), ('すぐ', 52), ('ようやく', 52), ('', 52), ('返事', 52), ('とも', 52), ('なぜ', 51), ('そこ', 51), ('いよいよ', 51), ('笑い', 51), ('', 51), ('せる', 51), ('逆上', 51), ('真面目', 50), ('らしい', 50), ('', 50), ('', 49), ('一つ', 49), ('', 49), ('好い', 49), ('これから', 48), ('いろいろ', 48), ('', 48), ('', 48), ('', 48), ('', 48), ('しよ', 48), ('立っ', 48), ('しきりに', 48), ('世の中', 47), ('どんな', 47), ('名前', 47), ('妻君', 47), ('無理', 47), ('笑っ', 47), ('おら', 47), ('しまう', 47), ('せんだって', 46), ('', 46), ('んで', 46), ('是非', 46), ('', 46), ('向う', 46), ('不思議', 46), ('', 45), ('悪い', 45), ('問題', 45), ('実は', 45), ('', 45), ('博士', 45), ('', 45), ('', 45), ('なし', 45), ('', 45), ('聞き', 44), ('まるで', 44), ('上っ', 44), ('', 44), ('近頃', 44), ('', 44), ('食い', 44), ('いかに', 44), ('相手', 44), ('感じ', 44), ('', 44), ('', 44), ('とき', 44), ('勝手', 44), ('', 43), ('実に', 43), ('何とか', 43), ('西洋', 43), ('こっち', 43), ('', 42), ('答え', 42), ('', 42), ('ああ', 42), ('下女', 42), ('', 42), ('やら', 42), ('致し', 41), ('考える', 41), ('元来', 41), ('つく', 41), ('買っ', 41), ('', 41), ('雪江', 41), ('聞か', 41), ('様子', 41), ('なんて', 41), ('', 41), ('', 41), ('結果', 41), ('だっ', 40), ('食う', 40), ('障子', 40), ('', 40), ('多々良', 40), ('', 40), ('長い', 40), ('平気', 40), ('とうとう', 40), ('困る', 40), ('自己', 40), ('研究', 39), ('必要', 39), ('当人', 39), ('構わ', 39), ('よる', 39), ('', 39), ('わから', 39), ('ことに', 39), ('たって', 39), ('', 39), ('読ん', 39), ('おや', 39), ('挨拶', 39), ('どうか', 38), ('へえ', 38), ('', 38), ('いけ', 38), ('とにかく', 38), ('うん', 38), ('すでに', 38), ('時代', 38), ('きっと', 38), ('車屋', 37), ('椽側', 37), ('分り', 37), ('自然', 37), ('えらい', 37), ('時々', 37), ('死ん', 37), ('とっ', 37), ('感心', 37), ('', 37), ('事実', 37), ('', 37), ('上げ', 37), ('飲ん', 37), ('死ぬ', 36), ('なお', 36), ('やめ', 36), ('', 36), ('落ち', 36), ('意味', 36), ('よかろ', 36), ('', 36), ('随分', 36), ('', 36), ('', 36), ('', 36), ('暗に', 36), ('座敷', 36), ('', 36), ('生れ', 36), ('', 36), ('', 36), ('', 36), ('心得', 35), ('実業', 35), ('承知', 35), ('ちょうど', 35), ('', 35), ('君子', 35), ('ちと', 35), ('書生', 35), ('', 35), ('落雲', 35), ('さすが', 35), ('', 35), ('探偵', 35), ('とうてい', 35), ('せっかく', 35), ('いう', 35), ('', 35), ('一番', 35), ('病気', 35), ('忘れ', 34), ('', 34), ('どうしても', 34), ('', 34), ('', 34), ('', 34), ('どうして', 34), ('おり', 34), ('けれども', 34), ('すこぶる', 34), ('過ぎ', 34), ('衛門', 33), ('日本', 33), ('笑う', 33), ('到底', 33), ('', 33), ('ごとき', 33), ('取っ', 33), ('向っ', 33), ('', 33), ('天下', 33), ('至っ', 33), ('よほど', 33), ('おく', 33), ('不平', 33), ('時分', 32), ('夫婦', 32), ('', 32), ('どうせ', 32), ('代り', 32), ('待っ', 32), ('に対して', 32), ('やがて', 32), ('突然', 32), ('', 32), ('にゃ', 32), ('失敬', 32), ('', 32), ('おれ', 32), ('真中', 32), ('伯父', 32), ('毎日', 32), ('非常', 32), ('', 32), ('過ぎる', 32), ('ついに', 32), ('安心', 32), ('切っ', 32), ('令嬢', 31), ('こりゃ', 31), ('かかる', 31), ('分る', 31), ('一体', 31), ('たろ', 31), ('立派', 31), ('込ん', 31), ('書い', 31), ('飛ん', 31), ('いっ', 31), ('', 31), ('引き', 31), ('いら', 31), ('行き', 31), ('', 31), ('について', 31), ('', 31), ('しかも', 30), ('', 30), ('言葉', 30), ('', 30), ('', 30), ('別段', 30), ('付け', 30), ('いか', 30), ('べから', 30), ('', 30), ('', 30), ('残念', 30), ('', 30), ('', 30), ('山の芋', 30), ('いっしょ', 30), ('後ろ', 30), ('によって', 30), ('ども', 30), ('普通', 30), ('', 30), ('はなはだ', 30), ('作っ', 30), ('尻尾', 29), ('', 29), ('喧嘩', 29), ('', 29), ('台所', 29), ('なあ', 29), ('', 29), ('', 29), ('すまし', 29), ('', 29), ('最後', 29), ('御前', 29), ('', 29), ('大丈夫', 29), ('質問', 29), ('', 29), ('おっ', 29), ('', 29), ('でし', 29), ('愉快', 29), ('なさる', 29), ('撫で', 28), ('結構', 28), ('', 28), ('時間', 28), ('茶碗', 28), ('発達', 28), ('', 28), ('起し', 28), ('逢っ', 28), ('負け', 28), ('', 28), ('にやにや', 28), ('全体', 28), ('', 28), ('たしかに', 28), ('', 28), ('', 28), ('変化', 28), ('', 28), ('帰る', 28), ('くれる', 28), ('', 27), ('', 27), ('それでも', 27), ('', 27), ('つか', 27), ('文明', 27), ('', 27), ('', 27), ('世間', 27), ('開い', 27), ('', 27), ('', 27), ('', 27), ('迷惑', 27), ('諸君', 27), ('三平', 27), ('付い', 27), ('', 27), ('', 27), ('関係', 27), ('羽織', 27), ('だんだん', 27), ('這入る', 27), ('受け', 27), ('貰っ', 26), ('説明', 26), ('先方', 26), ('坐っ', 26), ('利か', 26), ('一向', 26), ('あんまり', 26), ('答える', 26), ('充分', 26), ('得る', 26), ('二つ', 26), ('', 26), ('', 26), ('善い', 26), ('黙っ', 26), ('我慢', 26), ('注意', 26), ('', 26), ('なれ', 26), ('なあに', 26), ('さっき', 25), ('変ら', 25), ('有し', 25), ('着物', 25), ('なん', 25), ('がっ', 25), ('', 25), ('拝見', 25), ('', 25), ('実際', 25), ('ものの', 25), ('化物', 25), ('戦争', 25), ('眺め', 25), ('苦しい', 25), ('', 25), ('生き', 25), ('', 25), ('', 25), ('わるい', 25), ('', 25), ('', 25), ('かかっ', 25), ('', 25), ('述べ', 25), ('かける', 25), ('見せ', 25), ('', 25), ('冗談', 25), ('この間', 24), ('坊主', 24), ('ついで', 24), ('', 24), ('下さい', 24), ('真似', 24), ('向い', 24), ('個性', 24), ('結婚', 24), ('なるべく', 24), ('言っ', 24), ('地蔵', 24), ('', 24), ('心持ち', 24), ('', 24), ('', 24), ('場合', 24), ('ありがたい', 24), ('帽子', 24), ('給え', 24), ('動物', 24), ('', 24), ('もう少し', 24), ('', 24), ('本人', 24), ('よっぽど', 24), ('こそ', 24), ('', 24), ('御馳走', 24), ('月並', 24), ('困っ', 24), ('教え', 24), ('', 24), ('婦人', 24), ('読む', 24), ('分っ', 24), ('', 23), ('世紀', 23), ('立ち', 23), ('胃弱', 23), ('やろ', 23), ('違い', 23), ('しか', 23), ('なかろ', 23), ('出掛け', 23), ('', 23), ('', 23), ('', 23), ('東京', 23), ('毫も', 23), ('大抵', 23), ('懸け', 23), ('御覧', 23), ('', 23), ('', 23), ('甘木', 23), ('同時に', 23), ('', 23), ('', 23), ('うまい', 23), ('', 23), ('自身', 23), ('廻っ', 23), ('連れ', 23), ('布団', 23), ('自ら', 23), ('取ら', 23), ('禿', 23), ('なか', 23), ('', 23), ('解釈', 23), ('', 23), ('いいえ', 23), ('こと', 22), ('ことごとく', 22), ('自覚', 22), ('散歩', 22), ('しまい', 22), ('学者', 22), ('記憶', 22), ('られる', 22), ('叔父さん', 22), ('茶の間', 22), ('たまえ', 22), ('調子', 22), ('廻る', 22), ('そうして', 22), ('', 22), ('', 22), ('判然', 22), ('', 22), ('たちまち', 22), ('', 22), ('', 22), ('水島', 22), ('そこで', 22), ('尊敬', 22), ('滅多', 22), ('気味', 22), ('師匠', 22), ('むずかしい', 22), ('やっぱり', 22), ('', 21), ('滑稽', 21), ('長く', 21), ('あばた', 21), ('よし', 21), ('', 21), ('爺さん', 21), ('乱暴', 21), ('天然', 21), ('', 21), ('煙草', 21), ('なんぞ', 21), ('', 21), ('動か', 21), ('', 21), ('', 21), ('高い', 21), ('', 21), ('', 21), ('主義', 21), ('', 21), ('一般', 21), ('', 20), ('神経', 20), ('振り', 20), ('どっち', 20), ('隣り', 20), ('材料', 20), ('申す', 20), ('方法', 20), ('おとなしく', 20), ('かよう', 20), ('もっと', 20), ('置い', 20), ('せら', 20), ('芸術', 20), ('談話', 20), ('遠慮', 20), ('大方', 20), ('', 20), ('得意', 20), ('美学', 20), ('', 20), ('', 20), ('文章', 20), ('存外', 20), ('世界', 20), ('ありゃ', 20), ('', 20), ('わざわざ', 20), ('', 20), ('野郎', 20), ('すら', 20), ('現に', 20), ('本当に', 20), ('黒い', 20), ('さて', 20), ('つつ', 20), ('先刻', 20), ('見れ', 20), ('熱心', 20), ('奇麗', 20), ('居士', 20), ('', 20), ('発明', 20), ('裸体', 20), ('至る', 20), ('巡査', 20), ('ちゃんと', 20), ('', 20), ('トチメンボー', 19), ('', 19), ('', 19), ('', 19), ('だら', 19), ('積極', 19), ('いかなる', 19), ('無言', 19), ('', 19), ('あるいは', 19), ('医者', 19), ('その後', 19), ('取り', 19), ('または', 19), ('次第', 19), ('', 19), ('', 19), ('決心', 19), ('以外', 19), ('', 19), ('自慢', 19), ('無い', 19), ('', 19), ('', 19), ('危険', 19), ('', 19), ('使っ', 19), ('起っ', 19), ('申し', 19), ('立つ', 19), ('了見', 19), ('面倒', 19), ('性質', 19), ('', 19), ('', 19), ('', 19), ('すん', 19), ('勉強', 19), ('警察', 19), ('貰う', 19), ('弁じ', 19), ('', 19), ('', 19), ('同情', 19), ('', 19), ('', 19), ('', 19), ('多少', 19), ('頑固', 18), ('', 18), ('飛び出し', 18), ('', 18), ('教育', 18), ('写生', 18), ('面白く', 18), ('半分', 18), ('', 18), ('', 18), ('見せる', 18), ('議論', 18), ('おっしゃる', 18), ('', 18), ('いらっしゃい', 18), ('何となく', 18), ('', 18), ('', 18), ('', 18), ('合わ', 18), ('', 18), ('呼ぶ', 18), ('悪口', 18), ('', 18), ('公平', 18), ('', 18), ('独り', 18), ('', 18), ('失礼', 18), ('いつの間にか', 18), ('いわゆる', 18), ('よろしい', 18), ('製造', 18), ('こいつ', 18), ('悪く', 18), ('帰り', 18), ('たしか', 18), ('聞える', 18), ('強い', 18), ('呼ん', 18), ('つける', 18), ('連中', 18), ('昨日', 18), ('御蔭', 18), ('あけ', 18), ('', 18), ('乗っ', 18), ('落ちる', 18), ('心持', 18), ('さま', 18), ('', 18), ('こちら', 18), ('惜しい', 18), ...]

単語の頻度については、collections.Counterで簡単にできるみたい。
コンテナデータ型ってなんだ。
やっぱり標準ライブラリの勉強必須。Battery Includedの片鱗を実感。

37. 頻度上位10語

出現頻度が高い10語とその出現頻度をグラフ(例えば棒グラフなど)で表示せよ.

結果

from matplotlib import pyplot as plt
from matplotlib.font_manager import FontProperties

fp = FontProperties(fname='/System/Library/Fonts/ヒラギノ角ゴシック W2.ttc')
dataset = list(zip(*word_counter.most_common(10)))
plt.xticks(range(len(dataset[0])), dataset[0], fontproperties=fp)
plt.bar(range(len(dataset[0])), dataset[1], align='center')

37_頻度上位10語.png

matplotlibの日本語フォントについて

デフォルトのまま日本語を使うと文字化けするため、設定を変更する必要がある。
今回はFontPropertiesにて変更。
デフォルトフォントを変更する方法もあるみたいだが、実行してみても変更できない。。。

zip()について

以前取り上げたzip関数だが、引数に「*」をつけると元に戻せるらしい。

dataset
Out[23]: 
[('', '', '', '', '', '', '', '', '', ''),
 (9194, 7486, 6873, 6772, 6422, 6268, 6071, 5515, 5339, 3989)]
list(zip(*dataset))
Out[24]: 
[('', 9194),
 ('', 7486),
 ('', 6873),
 ('', 6772),
 ('', 6422),
 ('', 6268),
 ('', 6071),
 ('', 5515),
 ('', 5339),
 ('', 3989)]

すごい。

38. ヒストグラム

単語の出現頻度のヒストグラム(横軸に出現頻度,縦軸に出現頻度をとる単語の種類数を棒グラフで表したもの)を描け.

# ラベル・目盛りの追加
plt.xlabel('出現頻度', fontproperties=fp)
plt.ylabel('単語の種類数', fontproperties=fp)
plt.grid(axis='y')
# 出現頻度0が出てしまう対策
plt.xlim(xmin=1, xmax=20)
plt.hist(dataset[1], bins=30, range=(1, 30))

38. ヒストグラム.png

39. Zipfの法則

単語の出現頻度順位を横軸,その出現頻度を縦軸として,両対数グラフをプロットせよ.

plt.scatter(range(len(dataset[1])), dataset[1])
# 対数化
plt.xscale('log')
plt.yscale('log')
# 軸の範囲調整
plt.xlim(1, len(dataset[0]))
plt.ylim(1, dataset[1][0])
# ラベルづけ
plt.xlabel('出現度順位', fontproperties=fp)
plt.ylabel('出現頻度', fontproperties=fp)

39.png

###Zipfの法則とは
「n番目に多く現れる単語は、1番多く現れる単語のn分の1の確率で現れる」のだそうな。
これはあらゆる言語に共通するだけでなく、自然現象や社会現象にも適用できるらしい(http://www.is.titech.ac.jp/~mase/masename/chida-surname3/node3.html)。

3
3
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
3
3

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?