自然言語処理
weka
計量東村アキコ学

東村アキコの「主に泣いてます」のセリフからキャラクター設定をWekaを使用して分析する

More than 3 years have passed since last update.

こんにちは自称計量東村アキコ学第一人者の @makito です。漫画家の東村アキコ先生は多作で、作品内に文字も多いため自然言語処理を用いた計量分析に向いています。ところで計量東村アキコ学としておりますが、一応文化計量学計量文献学という大変真面目な学問分野の流れを汲んでいると思っております。文化計量学は、例えば紫式部の文学を分析したり、浮世絵の美を分析したりと文化的な貢献をしている大変貴重な学問です。

最近ではコミック工学というカタカナ学問分野が生まれつつあるようです。一時の学生集めの流行に終わらず、資源が投入され、学問として確立されるといいですね。それでは今回も、漫画・アニメも間違いなく文化的な側面をもった表現の一形態だと意識しながら真面目に分析していきます。

ときに、東村アキコ先生には引き続き締切に追われながらも良質な作品を産み出していただけたらと思っております。

続きはこちら⇒東村アキコ作品を自然言語処理して分析した話 - やっぱり「かくかくしかじか」はすごかった - d3.js と Excel と weka

:watch: これまで

まんが大賞へのノミネート5作品目「かくかくしかじか」で大賞を受賞した東村アキコ作品を分析し、ともだちに勧めたくなる漫画作品を計量的に把握しようとしています。最近は、するどく深い洞察をするために、東村アキコ先生の作品を寝る間も惜しんで読んでいます。

東村アキコ先生の過去のまんが大賞ノミネート作品

主に泣いてます
2011年 12位
海月姫
2010年 7位
ママはテンパリスト
 2009年 8位
ひまわりっ
〜健一レジェンド〜
 2008年 11位
image image image image

東村アキコ作品とは?

デビュー当初のシリアスな作風から徐々にコメディ色を強め、ギャグ漫画家としての才能を開花。

Wikipedia - 東村アキコ より

東村アキコ先生のマンガ作品はギャグ漫画です。近年の作品は次のような特徴があります。

  • あるあるネタの宝庫
  • マニアックなネタ、読者層・年齢に合わせた昔のネタも活用
  • クラスに一人、学年に一人いるようなキャラクターが登場
  • ボケに次ぐボケでボケっぱなし

:round_pushpin: おさらい

前回「d3.js の集計処理が強力 - 計量東村アキコ学の挑戦 - 漫画の文字情報を使用した漫画作品の特徴抽出方法の検討 その2」では、「かくかくしかじか」のセリフデータを分析し、キャラクターの発言頻度でキャラクターの特徴づけをしていることがわかり、また、ページ毎のセリフ末の記号の出現頻度が安定しない傾向があることがわかりました。

東村アキコの別作品「主に泣いてます」のコミック第一巻のセリフデータを使用しセリフ頻度とセリフ末尾の記号がキャラクターをどのように特徴付けているのかをみていきます。

:bar_chart:「主に泣いてます」の計量分析

「主に泣いてます」は絶世の美女であるがゆえに不幸な、天然系の泉(いずみ)と泉の美貌に振り回されるバカな男たちが描かれるギャグ漫画です。モーニング連載、読者は20-40代の男性層ですから読者に対する皮肉でしょうか?

コミック一巻収録の最終話の第十一話で作品タイトルが何故「主に泣いてます」なのか明かされます。非常に良く練られた構成のように思える本作を分析すれば、作者の考えが定量的分析を通して見えてくるかもしれません。見えてくるだろう。見えてきて欲しい。

ちなみに絶世の美女かつ天然系の主人公が登場する最近の人気漫画と言えば恋愛スポ根少女漫画「ちはやふる」でしょうか。「ちはやふる」はまんが大賞を受賞していますので、いつか比較をしてみたいです。

:floppy_disk: 分析に使用したデータ

「主に泣いてます」コミック版一巻(第一話~十一話収録)のセリフを次のルールに従い手でデータ化(1202件)しました。腱鞘炎になりそうです。

  • 吹き出しが連なった団子型の場合は団子毎に分けそれぞれひとつのセリフとする
  • オノマトペはセリフに含めない
  • 長い点々や波線は一文字として扱う
  • 複数ビックリマークは「!」に、「!?」は「!」として扱う
  • ナレーター/解説もセリフとして扱い、発言者は「ナレ」とする

:family: セリフ頻度から見るキャラクターの役割

キャラクターをどのように位置づけているか見ていきたいと思います。

表1.登場キャラクターの格付け

役割名 解説
主役 物語の主役でセリフの頻度が高い
準主役 主役と同程度セリフを持つ場合もあれば、そうではないときもある
物語に無くてはならない存在
主役とのやり取りが非常に多い
脇役 主役・準主役と比較するとセリフの頻度は低い
物語に無くてはならない存在
カラス役 カラスが「カア」と泣いて夕方を知らせる程度の役割のセリフ
(場面転換、事件発生告知)

例えば、「かくかくしかじか」で言えば、第一話から四話までをみると主役は林アキコ、準主役は日高先生、脇役は二見と中田先生、カラス役はその他(絵画教室生徒)といった具合に便宜的に考えます。

表2.「主に泣いてます」各話のページ数とセリフ数

ページ数 セリフ数 平均セリフ数
1 21 168 8.00
2 12 102 8.50
3 11 106 9.64
4 11 91 8.27
5 11 101 9.18
6 11 122 11.09
7 11 122 11.09
8 12 65 5.42
9 11 112 10.18
10 11 101 9.18
11 11 112 10.18

※物語に直接関係のあるページのみを対象とし、各話の冒頭にあるタイトルイラストが物語と関係ない場合は除いています。

image
図1.第一話から四話までのキャラクターの発言頻度

表3.キャラクター発言頻度のクラスター分析結果(K-Means)

クラスター キャラクター
1 赤松(3)、赤松(4)、つね(2)
2 つね(1)、赤松(2)、泉(1)、つね(3)、泉(2)
3 つね(4)、泉(3)、泉(4)、木藤(3)
4 赤松(1)、仁(1)、面接官(1)、その他

「主に泣いてます」では話によってページ数が大きく異なる(表2)ので、発言頻度には比率のデータを使用します。各話のページ数に対しキャラクターが発言する割合(%)を横軸に、発言数の平均を縦軸に散布図を作成(図1)し、このデータをもとにクラスター分析を行い(表3)ました。

物語の主役は泉とされていますが、発言傾向からは2話ではつね、3話と4話では赤松が主役級です。泉は準主役か脇役程度の頻度でセリフがあります。泉の周囲で泉の意図と関係なく勝手に暴走する人々で泉の美しさを遠まわしに表しているようにも感じられます。

引き続き他の男たちが登場する第十一話までのデータを見てみましょう。

image
図2.第一話から十一話までのキャラクターの発言頻度

役割が変わるものと変わらないもの

赤松は大学の単位が足りないゆえに先生の美術教室を講師として手伝うことになった大学生です。赤松は単位が不足している時点でダメ男ではありますが、作品中ではまともに感じるのは東村マジックのなせる業でしょうか?

「主に泣いてます」は泉の美貌に翻弄されるバカなおとこ達がオムニバス形式で登場します。赤松は泉との出会いで、泉の美貌に翻弄されるオス(三話、五話)として描かれますが、その後は固定キャラとして聞き手の役割をになったりしています。主役、準主役、脇役、カラス役の全種類を制覇します。

対して、つねは、主役の泉を昔から知り中学生にして愛人の仕組みを理解するキャラで、

image
図3.各話のページ毎の平均セリフ数

極端にセリフ数が少ない「向島血の三日間」を振り返る第八話(図3)を除けば発言回数は安定していて、物語を回す役割を担っていると読み取れます。

セリフ末尾に表れるキャラクター設定

image
図4.末尾記号使用頻度の主成分分析による散布図

次の条件でデータを整理した上で、末尾に使用される記号の使用頻度から、セリフ末の記号をどの程度キャラクター設定に活かしているかを分析しました(図4)。

  • 末尾の記号として6文字を集計 ,,,,,
  • 各話のキャラクター毎の総セリフ数に対する末尾記号の割合をデータとして使用
  • 各話の総セリフ数に対して10%以下のセリフ数の場合は集計から除外(例えばカラス役のキャラクターの1回のセリフが分析に与える影響を避ける)して主成分分析を行う
  • 上位2成分で十分説明可能なら散布図を作成

セリフの多い主要キャラクターの赤松つねのセリフの末尾記号が意識して使い分けられていると考えて良さそうです。こももはセリフがぶれているような印象を受けます。

:hammer: 結論

セリフ頻度でキャラクターの役割を分類できますが、「主に泣いてます」ではあまり固定されていないことがわかりました。ただし、話を回す役割を担うキャラクターのセリフ頻度はほぼ一定で物語の進行に一定のテンポを持たせているとも考えられます。

主要キャラクターの特徴をセリフ末尾の記号で書き分けていることがわかりました。他作品との比較分析を進める価値がありそうです。

:heart: おまけ

Wekaを用いた主成分分析

フリーの機械学習、統計処理ソフトウェアのWekaを使用して主成分分析を行いました。Windows7 64bitを使用しましたが、WekaはJavaで動いているのでMacでも動くと思います。

csvファイルを用意する

Wekaは日本語を扱うことが残念ながらできません。キャラクター名やセリフ末の文字は適当なアルファベットに置き換えたデータを作成する必要があります。次のようなcsvファイルを用意しました。

lastchar.csv
name,ratio,c1,c2,c3,c4,c5,c6
UNI(8),0.046153846,0.333333333,,,0.666666667,,
OKA(8),0.030769231,,0.5,,,,
KAM(8),0.030769231,,,,0.5,,
CAT(7),0.016393443,,1,,,,
CAT(9),0.080357143,,0.333333333,,,,

Wekaで分析する

Wekaを起動した後、用意したlastchar.csvを開いたのち、Weka Explorerウィンドウの「属性の選択」タブを開きます。

image

属性検証の「選択」ボタンをクリックし、「PrincipalComponents」(主成分分析)を選択します。少し下のプルダウンからデータの分析に使わないレコードの名称カラムを選択し、「開始」をクリックすると、分析結果が右側に表示されます。

「主に泣いてます」の登場人物

「主に泣いてます」に登場するキャラクターが、他の漫画家の作品に出てくるキャラクターの顔に似ている気がしてならないのです。「サラリーマン金太郎」の美鈴つね「DEATH NOTE」のニア、こももと赤松も誰かに似ているような気がするのですが思い出せません。「主に泣いてます」には「ゲゲゲの鬼太郎」で有名な水木しげる作品のキャラクターを登場させているので、こっそりと何かに似せているような気もするのです。

漫画家の絵による表現

とにかく絵で押してくる代表的な漫画家といったら誰でしょうか?バカボンド、スラムダンクの井上雄彦やYAWARA、MONSTERの浦沢直樹が思い浮かびます。井上雄彦はセリフの無いページをたくさん使いますね。とても困ります :sweat_drops: 全身、表情、人間関係(距離感)を絵だけで押してくる印象です。浦沢はアニメ的な表現を感じます、連続するコマで同じアングルの表情の変化を描いたり。漫画家のその作者らしい表現を見つけるのはとても楽しいです。

「ああ、ならではだよねぇ」

といった感じでしょうか。