Python
Python3
可視化
アニメ
声優

2018年冬アニメ出演声優の統計と所属プロダクションの可視化

More than 1 year has passed since last update.


概要

今回、アキバ総研の2018冬アニメというサイトをスクレイピングして、各種アニメ・声優に関するデータを集めてきました。対象としたのは以下のデータです。


  • アニメのタイトル

  • 出演声優

  • 出演声優のプロフィール

これらから、2018年冬アニメの出演声優とプロダクションの関係についてまとめてみました。


スクレイピングのコード

pyqueryを使いました。昔はBeautifulSoupとかが楽でしたが、今となってはこっちの方が便利ですねー。

from pyquery import PyQuery as pq

import pprint
import json

actor_data = dict()

def getAnimeDetail(item):
data = pq(item)
title = data.find("h2").text()
date = data.find("div.firstDate").text()

return {
"title": title,
"actors": list(getActors(data))
}

def getActors(data):
global actor_data
for d in data.find("div.info"):
for a in pq(d).find("dd a"):
path = a.get("href")
name = pq(a).text()
if name not in actor_data:
actor_data[name] = getActorDetail(path)
print(len(actor_data))
yield name

def getActorDetail(path):
url = "https://akiba-souken.com" + path
dom = pq(url)

name_text = dom.find("div.seiyuName").text()
name_span = dom.find("div.seiyuName span").text()

name = name_text[:name_text.index(name_span)].strip()
d01 = dom.find("dl.info01 dd")

gender = d01[0].text.strip()
blood = d01[1].text.strip()

birthday = dom.find("dl.info02 dd")[0].text.strip()
place = dom.find("dl.info02 dd")[1].text.strip()
production = dom.find("dl.info02 dd")[2].text.strip()

return {
"gender": gender,
"blood": blood,
"birthday": birthday,
"place": place,
"production": production
}

url = "https://akiba-souken.com/anime/winter/"
dom = pq(url)

pp = pprint.PrettyPrinter(indent=4)

data = list(map(getAnimeDetail, dom.find("div.itemBox")))

json.dump(data, open("anime_data.json", "w"))
json.dump(actor_data, open("actor_data.json", "w"))


アニメに関する情報


2018年冬アニメに関する統計

項目
数量

2017年の冬アニメの作品数
49

声優の記載のあった作品数(解析の対象)
38

今回、対象としたサイトによると、今期は49作品あるようです。そのうち、声優の情報が取れた38作品について調べます。取れなかったものはどういうアニメか?というとデータ取得時点で、キャストの情報がなかったもの。それと、長期で放映されているアニメ(銀魂)などでした。また、このデータには主要キャストしか書いておらず、ゲスト声優など短期の出演や、アキバ総研がデータベース化していない新人声優は除かれています。


解析の対象としたアニメ作品(38作品)

タイトル

アイドリッシュセブン

伊藤潤二「コレクション」

宇宙よりも遠い場所

ヴァイオレット・エヴァーガーデン

オーバーロードII

怪獣娘~ウルトラ怪獣擬人化計画~(第2期)

学園ベビーシッターズ

からかい上手の高木さん

カードキャプターさくら クリアカード編

キリングバイツ

gdメン

グランクレスト戦記

刻刻

斉木楠雄のΨ難(第2期)

サンリオ男子

citrus

新幹線変形ロボ シンカリオン THE ANIMATION

スロウスタート

だがしかし2

たくのみ。

ダメプリ ANIME CARAVAN

ダーリン・イン・ザ・フランキス

デスマーチからはじまる異世界狂想曲

DEVILMAN crybaby

刀使ノ巫女

七つの大罪 戒めの復活

博多豚骨ラーメンズ

覇穹 封神演義

バジリスク ~桜花忍法帖~

BEATLESS

Fate/EXTRA Last Encore

ポプテピピック

ミイラの飼い方

三ツ星カラーズ

ゆるキャン△

弱虫ペダル GLORY LINE

ラーメン大好き小泉さん

りゅうおうのおしごと!


声優に関する統計


性別の統計

性別
人数

男性
90

女性
102

全体
102

image.png

冬アニメだけで、192人もいるのですね。男女比はほぼ同数。女性の方が少し多いくらいです。


出演回数の頻度分布

image.png

出演数
該当する声優の人数
確率

1
127
0.661

2
41
0.213

3
14
0.072

4
7
0.036

5
3
0.015

頻度別に見ると指数分布しているようですね。ただ5点しかないので、本当にあっているか?といわれると少し疑問になる感じではあります。

このデータを見ると、5作品に出ている声優さんがトップのようです。この値を単純に考えてしまうと、平日は毎日収録があるような感じですね。毎日別作品となるとかなり大変そうですね。

一方で、1作品しか出ていない声優さんが60%を超える。ということから、1人の声優さんが、1期の間に、複数の作品に出る。ということは、かなり難しいことが垣間見ることができます。

2017年アニメの出演回数3回以上(上位12%に当たる)人々を、ここでは便宜上、トップ声優と定義します。これは便宜上であり、純粋な数値でしか見ていません。例えば、野沢直子さんなど、いくらでも古参な声優もいることはわかっており、あくまでわかりやすさのための識別子として付与しています

このように、出演数3回以上で区切ると以下のような表になります。

性別
出演回数<3
出演回数>=3
全体

男性
76
14
90

女性
92
10
102

image.png

このデータを見ると、全体として、男性声優は女性声優に比べて、16人程度、少ないです。しかし、トップ声優の数は4人多い。という計算になります。

ここで、トップ声優、全24人の一覧を見て見ます。

名前
性別
プロダクション名
出演作品数

前野智昭
男性
アーツビジョン
5

小野大輔
男性
フリーランス
5

松岡禎丞
男性
アイムエンタープライズ
5

阿部敦
男性
賢プロダクション
4

羽多野渉
男性
81プロデュース
4

梶裕貴
男性
VIMS
4

内田雄馬
男性
アイムエンタープライズ
4

中村悠一
男性
シグマ・セブン
4

茅野愛衣
女性
大沢事務所
4

竹達彩奈
女性
リンク・プラン
4

小野賢章
男性
アニモプロデュース
3

斉藤壮馬
男性
81プロデュース
3

水瀬いのり
女性
アクセルワン
3

浪川大輔
男性
ステイラック
3

日野聡
男性
アクセルワン
3

上坂すみれ
女性
スペースクラフト・エンタテインメント
3

沼倉愛美
女性
アーツビジョン
3

潘めぐみ
女性
アトミックモンキー
3

M・A・O
女性
イエローキャブNEXT
3

雨宮天
女性
ミュージックレイン
3

内田真礼
女性
アイムエンタープライズ
3

小林裕介
男性
ゆーりんプロ
3

櫻井孝宏
男性
インテンション
3

佐倉綾音
女性
アイムエンタープライズ
3

これを見ると特にトップに男性声優が多いことがわかります。出演数5回に至っては、男性しかいませんし、出演数4回は、茅野愛衣さん、竹達彩奈さん以外、全員男性です。これを見ると、出演頻度の高い声優は男性の方が多い。と言えそうです。

これについて、少し考えてみました。主観に塗れて申し訳ないのですが、世の中のアニメは、えてして「女の子が可愛い」ものが多いのではないかと思います。そうすると、どうしてもアニメのメインに置くのは女性声優が多いのではないでしょうか。そうすると女性声優は拘束時間が長いため、多くの作品に出演できない。一方で男性声優は、比較的拘束時間が短いため多数の作品に出演できているのではないか?と思いました。


2018年冬アニメ出演声優のプロダクションに関する統計

最初に、プロダクション数と、プロダクション別の出演声優数の頻度分布を見てみます。

項目
数量

プロダクション数
59

image.png

ちょっと見方が難しいので、注釈をすると、例えば、横軸が17の値を見てください。これは、1つのプロダクションから、冬アニメに出ている声優数が17人いるプロダクションが2つある。といった見方をします。

このグラフを見ると、やはり声優と同様に偏りがあることが分かります。10人出演声優数がいるプロダクションが極一部いる一方で、1人しか出演声優しかいないプロダクションが25以上ある。ということが分かります。

ここで、プロダクション別の出演声優数を見ています。冗長になるので、出演数4以上で足切りしています。

プロダクション名
出演声優数

81プロデュース
17

青二プロダクション
17

アイムエンタープライズ
13

大沢事務所
11

アーツビジョン
8

※フリーランス
8

賢プロダクション
7

マウスプロモーション
7

東京俳優生活協同組合
7

プロ・フィット
6

シグマ・セブン
5

アクセルワン
5

アミュレート
4

アトミックモンキー
4

ミュージックレイン
4

劇団ひまわり
4

アクロス エンタテインメント
4

VIMS
4

※フリーランス:無所属

また、先ほど定義したトップ声優に限定したプロダクション別声優数も一覧にします。

プロダクション名
トップ声優数

アイムエンタープライズ
4

81プロデュース
2

アクセルワン
2

アーツビジョン
2

賢プロダクション
1

シグマ・セブン
1

ミュージックレイン
1

アトミックモンキー
1

スペースクラフト・エンタテインメント
1

インテンション
1

ステイラック
1

フリーランス
1

VIMS
1

リンク・プラン
1

イエローキャブNEXT
1

アニモプロデュース
1

大沢事務所
1

ゆーりんプロ
1

これらのデータを元にプロットしてみます。このデータには少し乱数を加え、点同士が被らないように調整しています。

image.png

表からも、ある程度わかっていましたが、「青二プロダクション」「81プロデュース」「アイムエンタープライズ」「大沢事務所」あたりが、大手の事務所と言えそうです。これらは10人以上の声優が出演しています。しかし、「アーツビジョン」「シグマセブン」も、プロダクション別では出演声優数が少ないですが、2人もトップ声優がいるプロダクションのようです。ただ、このデータは少し推敲する必要があります。データ取得時点では主演声優が決まっていないものもありました。トップ声優の数も、プロダクション毎で、1から4人しかレンジがないことを考えると、少しの誤差でプロットの形が変わるので、あまりプロダクションごとにトップ声優の数に差があるか、というと、あまりないと考えた方が自然かも知れません。

 一方で、1人しか出演していないプロダクションが29もあり、プロダクション全体の半分を占めます。その上、トップ声優がいないプロダクションも多いようです。しかし、出演数が少ないプロダクションでも、トップ声優がいる場合もあり、例えば「ステイラック」などは、代表取締役が浪川大輔さんですが、正式な所属声優は2人しかいなかったり、「インテンション」も、所属声優は5人ながら、鈴村健一さん。櫻井孝宏さん。東山奈央さん。など有名声優もいます。このように数人のトップ声優しか所属しない、独立した小さな事務所も多いようです。


データクレンジングの難しさ

今回、アキバ総研さんのデータを用いて、解析をしておりましたが、やはりデータのフォーマットに揺れがあったり、明らかなデータについても欠落がありました。以降の節では、どのような不具合があったか、少しだけ取り上げてみたいと思います。


性別不明

image.png

原奈津子さん(画像は公式Twitterアカウントから引用)

image.png

鈴木みのりさん(画像は公式Twitterアカウントから引用)

性別のデータを一覧で見ていると、"男性"、"女性"、"-"となっており、性別が"-"?誰だ?と、思って、よくよく調べて見ると原奈津子さんと、鈴木みのりさんの2人でした。それぞれ女性なので、元データから書き換えています。


プロダクション不明

image.png

中島愛さん(画像は公式Twitterアカウントから引用)

image.png

鈴木みのりさん(画像は公式Twitterアカウントから引用)

個人的には、中島愛さんは、マクロスFのランカ・リーのイメージがあるので、もうデータとして綺麗に入っていても不思議ではないだろう。と、思っていましたが、データか欠落していました。鈴木みのりさんはこのデータも欠落していましたね・・・両方ともe-stone musicの所属です。

他にも何名かの方が、プロダクションのデータが抜け落ちていました。これは、恣意的なものも感じており、小野大輔さんなど、フリーの方は、"-"として登録されていました。


年齢の表記揺れ

image.png

上坂すみれさん(画像は公式Twitterアカウントから引用)

image.png

三森すずこさん(画像は公式Twitterアカウントから引用)

例えば、上坂すみれさんは、"1991年12月19日(25歳)"のような表記なのですが、三森すずこさんは、"6月28日"の表記だったりと出生年の情報が落ちている方が、何人かいます。本当は年齢までヒストグラムのデータを取りたかったのですが、さすがに手で直すには大規模すぎたので辞めました。これは、入力者のくせによってこんなことが起こっている気がします。


出生地表記揺れ

image.png

佐倉綾音さん(左)(画像はTwitterアカウント佐倉としたい大西から引用)

image.png

茅原実里さん(画像は公式Twitterアカウントから引用)

これが、一番ひどい揺れです。例えば、佐倉綾音さんは、きちんと"東京都"と入っていたりするのですが、田中秀幸さんは、"東京都大田区"まで書いてあります。村瀬歩さんは、"アメリカ合衆国"。えらく粒度が雑に・・・かと思えば、日野聡さんは、"アメリカ合衆国・サンフランシスコ"となっていたり。出生地が国レベルで違うと、ちょっとデータ的な扱いもややこしいですね。あとは、茅原実里さんの出生地が、",栃木県宇都宮市"になっています。完全にタイポですね。このようになかなか粒度やタイポがなかなかややこしいことになっていたので、この辺りも統計は辞めておきました。


データ保守についての難しさ

これは正規のデータではありませんが、このように表記が揺れてたりすると、解析者側は非常に困った話になります。出来るだけデータはきっちりと保守運用していただきたいなーとか思ってしまいますね。それにしても、有名な声優さんでもデータが不整合起こしてるものですね。今回は、修正が小規模なところを狙って、手で修正して解析を行いましたが、こういうところが、データ解析や機械学習を難しくしている原因の1つだなぁ・・・と改めて感じました。


感想

 今回は、良いデータソースを見つけることができたから、可能な解析でした。本当にデータを集めるのには苦労すします。個人的な予想では、もう少しプロダクションが偏るかと思っていました。自分は、そんなに声優に詳しいわけではなく、ましてやプロダクションにもあまり詳しくなく、「青二プロダクション」「81プロデュース」「アイムエンタープライズ」「シグマセブン」くらいしか知りませんでした。そのため、その辺りに偏るのであろう。と予測をしていましたが、声優プロダクションは裾野が広いのだなぁ。と感じました。

 やはり、気になったのは、トップ声優の男性率。本当に多い。最初記事にし始めた時に、トップ声優を4回以上出演回数の声優に絞ろうかと考えていましたが、あまりにも男性声優が多すぎて、記事にならん!となりましたし、女性声優にほとんど言及できないことになりそうだったので、少し閾値を下げました。

 あとは印象的だったのは、小野大輔さんでしょうか。完全に自分がハルヒ世代なので、小野Dといえば「小泉」な古い人間ですが、その当時からずーっと"アニメ"声優さんだなぁ。と。「アニメの声優は稼げない。」とか、噂を聞きますが、そんな中で、完全にトップの領域である、出演回数5回で、事務所でなく、フリーランスで働いていらっしゃるというのはすごいバイタリティだなぁ。と感じました。これからも頑張っていって欲しいですね。