LoginSignup
1
0

More than 5 years have passed since last update.

【お遊び】シンカリオンのトンデモメールを構文解析

Last updated at Posted at 2020-09-02

新幹線変形ロボ シンカリオンというアニメで印象的だった以下のようなメールの一文がありました。
alt

言ってあったか言ってなかったかどっちだったかちゃんと覚えていないけど、確かこの間手巻きパーティをやった時にちょこっと言った気がしなくもなきにしもあらずで多分言ったんじゃないかな、とココまで考えてみたけど、まあ言ってようが言っていまいがそこまで問題ないよね、と思うに至った次第です。

このメールは、アニメで1秒程度しか出ておらず、制作スタッフの遊び心が満載の文です:grinning:
今回はその文をCabochaを使って構文解析してpydotで表示しました。
やっていることは記事「滝沢カレンの理解不能な文章を言語解析してみた。」の二番煎じです。

構文解析結果

長文だけあって大きい・・・ 思ったよりもよく解析できています。見れば見るほどひどい文ですね。
result.png

ソース

Pythonで書いています。言語処理100本ノックの合間にちょっとした息抜きで作りました。そのプログラムの流用なので、少し無駄な部分があります。記事「素人の言語処理100本ノック:44」を参考にさせていただいています。

import re, CaboCha, pydot

class Morph:
    def __init__(self, surface, pos):
        self.surface = surface # 表層形(surface)
        self.pos     = pos     # 品詞(pos)

class Chunk:
    def __init__(self):
        self.morphs = []
        self.srcs   = []   # 係り元文節インデックス番号のリスト
        self.dst    = -1   # 係り先文節インデックス番号(初期値:-1, 係り先がない場合は-1のまま)

    def output_surface(self):
        surface = ''
        for morph in self.morphs:

            # 記号を除外
            if morph.pos != '記号':
                surface += morph.surface
        return surface

def parse_lines(tree_list):
    chunks = dict()     # idxをkeyにChunkを格納

    for line in tree_list:
        if line[:3] == 'EOS':

            # Chunkのリストを返す
            if len(chunks) > 0:

                # chunksをkeyでソートし、valueのみ取り出し
                sorted_tuple = sorted(chunks.items(), key=lambda x: x[0])
                return list(zip(*sorted_tuple))[1]  #[1]がリストのvalue部分
                chunks.clear()

            else:
                return []

        # 先頭が*の行は係り受け解析結果なので、Chunkを作成
        elif line[0] == '*':

            # Chunkのインデックス番号と係り先のインデックス番号取得
            cols = re.split('\s|D', line)
            idx = int(cols[1]) # Chunkのインデックス番号
            dst = int(cols[2]) # 係り先文節インデックス番号

            # Chunkを生成(なければ)し、係り先のインデックス番号セット
            if idx not in chunks:
                chunks[idx] = Chunk()
            chunks[idx].dst = dst

            # 係り先のChunkを生成(なければ)し、係り元インデックス番号追加
            if dst != -1:
                if dst not in chunks:
                    chunks[dst] = Chunk()
                chunks[dst].srcs.append(idx) # 係り元は複数あるのでappend

        else:

            #タブとカンマで分割
            cols = re.split('\t|,', line)

            chunks[idx].morphs.append(Morph(
                    cols[0],    # 表層形(surface)
                    cols[1]     # 品詞(pos)
                ))

# 構文解析
parser = CaboCha.Parser()
tree = parser.parse('言ってあったか言ってなかったかどっちだったかちゃんと覚えていないけど、確かこの間手巻きパーティをやった時にちょこっと言った気がしなくもなきにしもあらずで多分言ったんじゃないかな、とココまで考えてみたけど、まあ言ってようが言っていまいがそこまで問題ないよね、と思うに至った次第です。')
#tree = parser.parse('今日の天気は晴れでしたが、明日の天気は悪くなるそうです。')

# Stringのlistに分解
tree_string = tree.toString(CaboCha.FORMAT_LATTICE)
tree_list = tree_string.splitlines()

# 係り受けを整理
chunks = parse_lines(tree_list)

# 係り先があるものをpydotに渡す形式に変更
edges = []
for i, chunk in enumerate(chunks):
    if chunk.dst != -1:

        # 記号を除いた表層形をチェック、空なら除外
        src = chunk.output_surface()
        dst = chunks[chunk.dst].output_surface()
        if src != '' and dst != '':
            edges.append(((i, src), (chunk.dst, dst)))

# pydotで有向グラフとして画像保存
 if len(edges) > 0:
    graph = pydot.graph_from_edges(edges, directed=True)
    graph.write_png('result.png')
1
0
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
1
0