Ⅰ.この記事について
この記事は、GitHubのポートフォリオのデータ分析の結果を記載しています。
対象ポートフォリオ
対象ポートフォリオは以下となります。
対象ポートフォリオ:Data_analysis_using_the_Titanic_dataset.ipynb
使用したデータセット
当ポートフォリオは、OpenMLのタイタニック・データセットを使ってデータ分析を行いました。
使用したデータセット:タイタニック・データセット(OpenML)
データ分析の目的
当ポートフォリオのデータ分析では、1912年に処女航海で沈没した豪華客船タイタニック号の「乗客の生存可否を分けたのはどんな条件だったか」を調べています。
乗船港について
当ポートフォリオのデータ分析では、1912年に処女航海で沈没した豪華客船タイタニック号の「乗客の生存可否を分けたのはどんな条件だったか」を調べています。
Ⅱ.データの集計と可視化
コード 4-12 数値項目への統計値
index | 客室クラス | 生存状況 | 年齢 | 兄弟_配偶者数 | 親_子供数 | 運賃 |
---|---|---|---|---|---|---|
count | 1309.0 | 1309.0 | 1046.0 | 1309.0 | 1309.0 | 1308.0 |
mean | 2.294881588999236 | 0.3819709702062643 | 29.8811345124283 | 0.4988540870893812 | 0.3850267379679144 | 33.29547928134557 |
std | 0.837836018970131 | 0.48605517086648004 | 14.413499699923594 | 1.0416583905961017 | 0.8655602753495126 | 51.758668239174135 |
min | 1.0 | 0.0 | 0.1667 | 0.0 | 0.0 | 0.0 |
25% | 2.0 | 0.0 | 21.0 | 0.0 | 0.0 | 7.8958 |
50% | 3.0 | 0.0 | 28.0 | 0.0 | 0.0 | 14.4542 |
75% | 3.0 | 1.0 | 39.0 | 1.0 | 0.0 | 31.275 |
max | 3.0 | 1.0 | 80.0 | 8.0 | 9.0 | 512.3292 |
客室クラス:2.2949(mean)
平均値(mean)が2より大きいか小さいかを見ることで、1等客室の乗客(1)と3等客室の乗客(3)のどちらかが多いかを判断できます。実際には2.29なので、3等客室の乗客の方が多いことがわかります。
生存状況:0.3820(mean)
平均値(mean)が0.5より大きいか小さいかで、救出された人(1)と、死亡した人(0)のどちらが多かったかわかります。0.38なので、死亡者の方が多かったことがわかります。
年齢:0.1667(min)、80.0000(max)
年齢は最小値(min)と最大値(max)に注目します。最小値は0.1667で、生後2ヵ月の乳児でした。最大値は80なので、最高齢の乗客は80歳だったことになります。
親_子供数:0.0000(75%)
75パーセントタイル値に注目すると、0です。この値が0であるということは、「乗客の少なくとも3/4は、親も子供も同乗していない」ということを意味しています。
コード 4-13 文字型項目への統計値
index | 氏名 | 性別 | 乗船券番号 | 客室番号 | 乗船港 | 救命ボート番号 | 遺体識別番号 | 自宅または目的地 |
---|---|---|---|---|---|---|---|---|
count | 1309 | 1309 | 1309 | 295 | 1307 | 486 | 121 | 745 |
unique | 1307 | 2 | 929 | 186 | 3 | 27 | 121 | 369 |
top | Kelly, Mr. James | male | CA. 2343 | C23 C25 C27 | S | 13 | 135 | New York, NY |
freq | 2 | 843 | 11 | 6 | 914 | 39 | 1 | 64 |
救命ボート番号
count=486、unique=27は、救命ボートが全部で27隻あり、ボートに搭乗できた人が全部で486名いたことを意味しています。
top=13、freq=39は、最も多くの乗客が搭乗した救命ボートの番号が13で、そのボートには39名の乗客が搭乗したという意味です。
486/27=18なので、ボート1隻あたりの平均的な乗客数はちょうど18名になります。
ネットの記事などを調べると、救命ボートの定員は65名だったが、船を吊り下げるロープの強度に自信がなかったため、少ない人数しか乗船させなかったとあります。
その事実の一端が読み解ける結果になっています。
性別
count=1309、top=male、freq=843から、乗客1309名のうち、男性が843名で男性の方が多かったことがわかります。
乗船港
乗船港ではS(サウサンプトン)が最も多いことが読み取れます。
コード 4-14 値の出現回数確認
客室クラス
3 709
1 323
2 277
Name: count, dtype: int64
生存状況
0 809
1 500
Name: count, dtype: int64
性別
male 843
female 466
Name: count, dtype: int64
乗船港
S 914
C 270
Q 123
客室クラス
3等客室の乗客が1等客室の乗客より人数が多いことがわかります。
生存状況
0(死亡者)の方が1(生存者)より人数が多いことがわかります。
コード 4-15 「客室クラス」を軸にしたグループごとの集計
客室クラス | 生存状況 | 年齢 | 兄弟_配偶者数 | 親_子供数 | 運賃 |
---|---|---|---|---|---|
1 | 0.619195 | 39.159918 | 0.436533 | 0.365325 | 87.508992 |
2 | 0.429603 | 29.506705 | 0.393502 | 0.368231 | 21.179196 |
3 | 0.255289 | 24.816367 | 0.568406 | 0.400564 | 13.302889 |
「客室クラス」✖️「年齢」の関係
客室クラスが上に行くほど、平均年齢が高くなっています。
この事実は、上のクラスの客室ほど料金が高いはずで、その料金を支払うにはある程度年齢が高い必要があるという話で説明できます。
「運賃」
客室クラスが上であるほど平均運賃が高いという妥当な結果が示されています。
コード 4-16 「客室クラス」「乗船港」を軸にした出現頻度分析
客室クラス | C | Q | S | All |
---|---|---|---|---|
1 | 141 | 3 | 177 | 321 |
2 | 28 | 7 | 242 | 277 |
3 | 101 | 113 | 495 | 709 |
All | 270 | 123 | 914 | 1307 |
人数の比率
人数の比率でいうと、出発地であるS(サウサンプトン)が圧倒的に多いのがわかります。
他の2つの港は、それぞれ内訳として客室クラスの人数比が特徴的です。
Q(クイーンズタウン)について
クイーンズタウンから乗船した乗客の客室クラスは、他の2つの港と比較して3等客室の割合が圧倒的に多くなっています。
クイーンズタウン(現:コーヴ)はアイルランドの港であり、当時、アイルランドからアメリカへの移民がとても多かったと様々な資料に記載があります。
他の2つの港で乗船した人は観光目的の人が多かったのに対して、クイーンズタウンからの乗客は移民目的の人が多かったと考えると、比較的安価に乗船可能な3等客室の比率が多いことも説明できると思います。
コード 4-17 「性別」と「客室クラス」を軸とした、「生存状況」のクロス集計
性別 | 1 | 2 | 3 |
---|---|---|---|
female | 0.9652777777777778 | 0.8867924528301887 | 0.49074074074074076 |
male | 0.3407821229050279 | 0.14619883040935672 | 0.15212981744421908 |
「性別」✖️「客室クラス」の関係
性別と客室クラスの組み合わせで、生存率が大きく異なっていたことがわかります。
1等客室の女性の乗客のうち、90%以上が生存しています。
コード 4-18 数値項目のヒストグラム表示
年齢
1番左の4歳以下の区間に最初のピークがあり、小さな子供が多く乗船していることがわかります。
全体のピークは20~24歳程度の区間で、その後は年齢が高くなるにつれて徐々に減ってきています。
コード 4-19 運賃を150以下に限定して分析
運賃の幅
ヒストグラムには50までに6つの区間があり、1区間分の幅は、運賃でいうと8程度です。
700人以上が16以下の料金であることがわかります。
700人という人数は、3等客室の乗客数とほぼ一致し、3等客室の料金がこの程度であったという仮説が立てられそうです。
Ⅲ.仮説立案・検証
本ポートフォリオの主要なテーマは「乗客の生存状況と個別の項目の関係性」です。
解釈つまり「なぜこの関係性が生まれたのか納得のできる説明」を考えていきます。
コード 4-24 「生存状況」と「性別」の関係
女性の方が生存率の比率が高い
女性(female)の生存率が80%近いのに対し、男性(male)の生存率は20%を切っています。
女性の方が生存率の比率が高いという結果が得られそうです。
コード 4-25 「生存状況」と「年齢」の関係
7歳以下の幼い乗客は生存の比率が高い
ヒストグラムは10歳までに3つの区間があり、1番左の区間は0~3歳程度、2番目の区間は4~7歳程度の年齢を意味します。
この2つの区間で特徴的なのは、生存者を意味する水色の棒グラフの長さが死亡者を意味する青色の棒グラフより長い点です。
つまり、この2つの年齢層では生存者の比率の方が高かったことになります。
結論として、年齢7歳以下の幼い乗客は生存の比率が高いということになります。
Women and children first
海難事故発生時に女性と子供を優先するポリシーが、"Women and children first"という名前で存在しています。
タイタニックの事故の際にもある程度適用されたようです。
女性と幼い子供の生存率が高いのは、「"Women and children first"ポリシーに沿った形で救命ボートへの搭乗メンバーが選定されたから」で説明が可能です。
コード 4-26 「生存状況」と「客室クラス」の関係
1等客室の乗客は他と比べて生存率が高い
グラフを見ると、「1等客室の乗客は他と比べて生存率が高い」という結果になりました。
1つのありうる仮説は、「乗組員にとって1等客室の乗客は高い運賃を支払っている上客なので優先して救命ボートに乗せた」というものです。
しかし、船が沈没しようとしている緊急事態のときに、どの上客がどの客室クラスかいちいち判断できたのでしょうか?
通常、豪華客船では「料金の高い客室ほどデッキに近い」原則があるといいます。
タイタニックの客室についても同じ原則があるのなら、料金の高い1等客室はデッキに近く、つまりすぐにデッキまで避難できたことになります。
3等客室は船底にあり脱出困難だった
タイタニック号の断面図を見てみると、3等客室は船底に近いところにあることがわかります。
船底に近い3等客室にいた乗客は、デッキにたどり着くのに時間がかかり、救命ボートにも乗れなかったのではないかという説が考えられます。
コード 4-27 「生存状況」と「乗船港」の関係
シェルブールから乗船した乗客は他と比べて生存率が高い
グラフからC(シェルブール)から乗船した乗客は生存率55%程度なのに対して、Q(クイーンズタウン)とS(サウサンプトン)から乗船した乗客の生存率は35%程度で、一定の生存率の違いがあるのがわかります。
数字を見る限りでは、シェルブールから乗船した乗客は他と比べて生存率が高いと言えます。
コード 4-28 「客室クラス」と「乗船港」を軸とした出現頻度分析
シェルブールから乗船した乗客は1等客室クラスが多い
C(シェルブール)から乗船した乗客は、1等客室の比率が高くなっているのがわかります。
これまでのデータから1等客室と生存率の関係性はわかっています。
シェルブールと1等客室の関係性を組み合わせると、2つの関係性の組み合わせでシェルブールと生存率に関係があるように見えるのではないかという仮説が成り立ちそうです。
Ⅳ.深掘り分析
データ分析の最後にあたる本節では、前節の「仮説立案・検証」をさらに細分化して、もう一段踏み込んだ分析をしてみます。
仮説立案(「生存状況」と「救命ボート」の関係)
前節で行った分析に際して1つの前提としていた話があります。
それは、最終的に確認したい点が「生存状況」なのに、説明性を検討するに際して「生存状況の可否」は「救命ボートに搭乗できたか」と等価であると考えていた点です。
"Women and children first"のポリシーが直接関係するのは、乗客が救命ボートに搭乗できたかどうかであって「生存状況」と完全に同じものであるかどうかは、まだ検証できていません。
そこで、この2つが等価ではない、つまり、救命ボートに乗れなかったが助かった、または逆に救命ボートに乗れたが助からなかった乗客が存在するのではないかという仮説を立ててみることにします。
コード 4-30 「救命ボート」「生存状況」を軸とした出現頻度分析
生存状況 | False | True |
---|---|---|
0 | 800 | 9 |
1 | 23 | 477 |
救命ボートに搭乗できたことと生存できたことはほぼ等価である
コード4-30の結果を見ると、以下のようになっています。
- 救命ボート:False、生存状況:0の乗客が800名
- 救命ボート:True、生存状況:1の乗客が477名
結論として、救命ボートに搭乗できたことと生存できたことはほぼ等価であるということがまず確認できたことになります。
一方で、数は少ないのですが、例外的なケースもありました。
- 救命ボート:False、生存状況:1の乗客が23名
- 救命ボート:True、生存状況:1の乗客が9名
救命ボートに乗れなかったが助かった、または逆に救命ボートに乗れたが助からなかった乗客が存在するのではないかという仮説が正しいことが実証されました。
コード 4-32 救命ボートなしで助かった人の性別傾向
性別 | 人数 | 生存状況 |
---|---|---|
female | 21 | 0.142857 |
male | 2 | 0.002959 |
救命ボートなしで助かった人のほとんどは女性
救命ボートなしで助かった人の性別を調べてみると、女性が圧倒的に多く、男性の10倍以上となっています。
比率で考える場合、元々乗客の女性の比率は少ないこと、女性が優先してボートに乗ったので、残された女性数はますます減っていることもあり、約50倍と圧倒的な差になりました。
コード 4-34 救命ボートに乗れたのに助からなかった人の性別傾向確認
性別 | 人数 | 生存状況 |
---|---|---|
male | 8 | 0.047904 |
female | 1 | 0.003135 |
救命ボートに乗れたのに助からなかった人はほぼ男性
人数比で8対1と男性の方が多いことがわかりました。
全体数を加味すると、女性の方が多くボートに乗っているのでその差がもっと広がり、死亡率で比較すると違いは約15倍と、やはり圧倒的な差になりました。
例外的な事象の発生と性別には強い相関があった
深掘り分析で得られた示唆として、例外的な事象の発生と性別には深い相関があったことがわかりました。
発見した事象をより具体的に記述すると以下となります。
- 女性は救命ボートなしという厳しい条件でも生存できた人の比率が男性と比べて高い
- 男性は救命ボートに乗れたという有利な条件でも、最終的に亡くなってしまった人の比率が女性と比べて高い
Ⅴ.タイタニック・データセットのデータ分析をしてわかったこと
今までわかったことをまとめると以下となります。
- 生存できたかどうかは、基本的には救命ボートに乗れたかどうかでほとんど全て決まった。
- しかし、一部「救命ボートに乗れなかったが助かった」「救命ボートに乗れたが助からなかった」という例外的な乗客がいた。
- 例外的事象の起きやすさは性別と強い相関があることが、深掘り分析の結果からわかった。
お読みいただき、誠にありがとうございました。