LoginSignup
7
9

More than 5 years have passed since last update.

漫画の文字情報を使用した漫画作品の特徴抽出方法の検討

Last updated at Posted at 2015-04-14

本文中の絵文字は深い意味・意図無く目印として使用しています。続きはこちら http://qiita.com/makito/items/bb0440fd83c28721f75f。

:mag: 概要

東村アキコ先生の「かくかくしかじか」が2015年のマンガ大賞を受賞しました。おめでとうございます。大賞を受賞した作品を定量的に分析し、その特徴を把握できるかやってみようと思います。漫画には絵と文字がありますが、文字情報に着目し、文字情報からの特徴を抽出してみます。

image

:round_pushpin: はじめに

マンガ大賞は2008年から始まり、毎年大賞が一冊発表されている漫画賞です。非公開の複数の選考委員が友達に勧めたくなる漫画を選考し投票しています。2015年に大賞に選ばれた東村アキコ先生は過去4度全て別作品でノミネートされていました。2015年に大賞を獲得した「かくかくしかじか」を他4作品と比較することで文字情報の差異を抽出し、友達に勧めたくなる漫画の文字情報の構成方法を提案してみようと思います。(差異が無いかもしれませんが :sweat:

類似の研究として「マンガの構成要素の定量的な解析と類似度判定」では絵の情報も含め構成要素を定量的に把握する方法を検討されています。

:wrench: 文字情報の特徴抽出方法

大賞作品「かくかくしかじか」のコミックを読み、手入力でデータ化します。巻数、ページ、発言者、セリフをいちレコードとし、登場人物の発言ではない作者が語る(神の視点からのナレーションのようなもの)文章も発言者を「ナレ」とします。擬音表現であるオノマトペは対象としません。セリフの区切りは一つの塊としますが、団子型の吹き出しの場合は、団子毎にひとつのセリフとします。

レコードの形式(タブ区切りのテキストファイルとして保存)

1   5   ナレ  その古い家は|森を抜けた海の|すぐ側に建っていた

※セリフ中の|(縦棒)は改行

「かくかくしかじか」第一話の分析

第一話には次の発言者が登場します。ナレは解説のことで、不明は誰が発言したかわからないセリフにつけた発言者名です。

ナレ、ごっちゃん、不明、中田、林(主人公)、二見、運転手、日高、よし子

もし「かくかくしかじか」を読んだことがあるなら、「よし子さんって誰?」と思うかもしれません。よし子さんは一言だけ「グフッ」と発言機会をもらった絵画教室の生徒のひとりです。一言も発言できない空気のような生徒もいるのでよし子さんは恵まれている方だと言えます。

整理した第一話分のデータを使用し、ページ毎にセリフ数、発言者数を集計しました(図1)。また同様にページ毎の発言者の発言回数を集計しました(図2)。

image
図1.「かくかくしかじか」第一話のページ毎のセリフ数と発言者数

image
図2.「かくかくしかじか」第一話のページ毎の発言者の発言回数

発言者は最大で3人ですが、16ページは誰の発言もありませんでした。誰の発言も無いページはほぼ中央にあり、その前後で発言者の傾向が異なることが図2から読み取れます。前半は解説を中心に林(主人公)の周囲の人物が登場し、16ページの後、先生である日高が登場し以降は林と日高が中心に話が進むことがわかります。

話中の発言の無いページの挿入箇所がまるでテレビアニメのCMのタイミングのようにも感じますが、こうした文章が無い表現も作品を特徴づける一つになるかもしれません。また、手入力の作業中に「…」(三点リーダ)「ーッ」(長音とカナの半濁音)の表現が多いことに気づきました。このような記号は登場人物の口癖や性格を表現していると考えられます。このような記号の使用頻度が特徴の一つになる可能性があります。

表1.中田の記号を含むセリフ数

項目
中田の全セリフ数 12
三点リーダを含むセリフ数 8
波形を含むセリフ数 4

セリフデータを構文解析ツール CaboCha を使用して品詞の使用数を集計しました。

表2.第一話の品詞の出現回数

品詞
連体詞 24
形容詞 26
名詞 630
助詞 430
動詞 230
助動詞 127
副詞 46
記号 177
接頭詞 12
接続詞 6
感動詞 19
フィラー 10

品詞の出現回数を各話毎に差異を取ることで作品全体の特徴とすることができるかもしれません。他作品と比較し特徴を検討してみようと思います。

表3.第一話の記号の出現回数

記号
16
9
9
94
4
4
1
3
9
26
2

「…」(三点リーダ)の使用頻度が最も多い結果になりました。これは絵画教室への道中で迷うシーンで、次のようなセリフがまとまって出てくることから予想しておりましたが、三点リーダが特徴となるかどうか他の話、他の作品と比較してみようと思います。

ちょっ…
待っ…
待って下さ…
ハァ
ハァ
ちょ…
見えな…
こっち?
あこっち?
っ!
え…?
こ…
ここ?
ふ…
フツーの…
フツーっつーか…
すっげー古い家…
し…しつれーします……
え…? え…?こっちかな…?
入れ
ハ…
ハイ…
すご…

表4.第一話の発言者別記号の使用頻度

発言者 記号 使用数 頻度(使用数/セリフ数)
ごつ 1 100%
ナレ 8 15%
ナレ 8 15%
ナレ 8 15%
ナレ 7 13%
ナレ 3 5%
ナレ 3 5%
ナレ 1 2%
ナレ 1 2%
不明 1 50%
不明 1 50%
中田 16 133%
中田 6 50%
中田 1 8%
69 76%
22 24%
2 2%
4 4%
1 1%
1 1%
1 1%
1 1%
運転手 2 200%
日高 3 10%
日高 1 3%
日高 2 7%
日高 2 7%
二見 1 7%

セリフ数に対して記号の使用回数を頻度として計算しているので100%より大きくなるものがあります。日高の記号使用頻度が他の発言者と比較して少ないのは、作者が「ッ(カナ半濁音)」を記号的に使用しているからかもしれません。日高のセリフには例えば次のようなものがあります。

ダメーってお前 今何年かーッ
3年てお前 今年受験やないかお前ーッ
お前これじゃどこも受からんどーッ美大行くつもりなんかコレでーッ
オラァよし子お前時間かかり過ぎやろがオラーッ
いいから描けーッ

セリフ文末表現の出現頻度から記号的に使用されるものを見つけてから分析を進めた方が良さそうです。例えば文末長音と文字の組み合わせの場合はその文字は記号とみなすといった手法が考えられます。

ところで、自信の無い発言の時に使用されるような感じがする「…」ですが、乱暴で断定的なセリフの多い日高も使用しています。どんなシーンかその前後のセリフを拾ってみました。

林 良かった…上手く描けた傑作ばかりを選んで持ってきて…
日高 ……
林 えっ
日高 ハイ全然下手クソでーす

自信が無いのではなく、林の絵の下手さ加減に絶句していたシーンだったようです。

:pencil: 今後の課題

発言の無いページやその前後の登場人物の発言傾向、記号の使い方をみると、非常に良く計算して構成された作品のように感じます。後半のセリフ数のアップダウンは絵画教師で竹刀を振り回す日高先生のめちゃくちゃ加減を表すためにとった手法にも感じられます。このような構成自体を定量的に計る方法を探しながら、引き続き第一話と同様に他の話でも分析を続け、特徴となる指標の発見を試みようと思います。また、関連する論文や文献にあたることで先人の試みを参考にしていく予定です。

続く -> d3.js の集計処理が強力 - 計量東村アキコ学の挑戦 - 漫画の文字情報を使用した漫画作品の特徴抽出方法の検討 その2

:heart: おまけ

計量文献学に関すること

参考資料「マンガの構成要素の定量的な解析と類似度判定」に

品詞の使用頻度では,計量文献学 [1] と同様,助詞と助動詞がマンガ作者の特徴である.

という記載がありました。資料[1]は「村上征勝.文化を計る.朝倉書店,2002」です。いきなり特徴を「助詞と助動詞がマンガ作者の特徴である」と言い切り、特に解説がありませんので、該当書籍を参考に少し調べてみました。

「文化を計る」は古代といった文化的なものを計量的に図る手法についてまとめられた本です。文の計量的分析では、複数のペンネームを使い分けた同一人物が、文体を変えようとしているものの、計量的な分析により実は同一人物であることを確かめる推理小説のような流れがとても面白いものだと感じました。

本書では過去の文献に対して下表のような指標を使用して分析を行っています。

対象文献 分析に使用した指標
現代文 読点の前の文字
源氏物語 名詞、助動詞
日蓮遺文 品詞、文の構造

現代文では読点の前の文字に特徴を見出していますが、残念なことに「かくかくしかじか」には読点が使用されていませんのでこの方法は使えないでしょう。源氏物語では名詞、助動詞を特徴として使用していますが、古文の表現として確認された特徴(特に助動詞)をそのまま使用して良いのか疑問が残ります。

今回は東村アキコ作品の作品間の比較をするので、他の単語の特徴の有無を調べる必要がありそうです。その場合は各話の品詞の使用頻度の差異から作品の特徴を選択するつもりです。

村上征勝(むらかみまさかつ)先生の略歴

1945年 中国南京に生まれる
1974年 北海道大学大学院工学研究科博士課程修了
2002年(著書発行時点) 文部科学省統計数理研究所・総合研究大学院大学教授、工学博士

MecabとCaboCha

品詞の分析にはMeCabとCaboChaを使用しました。CaboChaの出力結果からプログラムで品詞数の数え上げをしました。「かくかくしかじか」で使用されている方言(宮崎弁)により品詞数が厳密には正しくない可能性は残されていますが、今後の検討課題とします。

データの作成に関すること

手入力のデータ化はとても面倒な作業です。嫌で嫌で仕方がありません。ただ、漫画を苦痛を感じながら読むという貴重な体験でもありますので、漫画が読みたくならない程度に進めようと思います。OCRも考えましたが別の苦労がありそうなので、別の機会に挑戦しようと思います。

大賞作品を全話分析すると膨大な時間がかかりそうです。第一巻が面白くなければ友達に勧め無いだろうという仮説を前提にしてしまい(一応納得感はあります)今後の作業を進めようと思います。

コミック工学に関すること

コミック工学の可能性」はとても興味深い論文でした。興味がありましたら是非!

まんが大賞に関すること

マンガ大賞に東村アキコ氏 女性作家の受賞が続く背景は
http://thepage.jp/detail/20150408-00000004-wordleaf

という記事がありました。

書店員を中心とした選考委員が選ぶ『マンガ大賞 2015』に、東村アキコ氏の『かくかくしかじか』が選出された。今年で8回目を迎える同賞。今回で、7年連続で大賞に女性漫画家が選ばれたことになるという。このことで、女性漫画家や女性向けの漫画に勢いがあると考えて良いのだろうか。マンガランキング書籍「このマンガがすごい!」(宝島社)の編集長、薗部真一氏に寄稿してもらった。

のくだりで始まる記事ですが、記事中では女性作家の受賞が続く理由を断定している個所はありません。あると言えばあるのですが、それは野暮なので・・・選考委員の女性比率にふれているような・・・

7
9
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
7
9