どんな話?
産後うつによる自殺者が2年間で92名で、原因の最多にというような内容をNHKのニュース記事が発表しました。色々な方が反応していましたが、統計的にそんなに多いわけじゃない。むしろ産後1年間の自殺者は最も少ない時期である。データを見ても明らかというような内容のポストがインフルエンサーによるRepostで話題になりました。
この記事は?
このデータが正しいとか間違っているとか、誰かが言っていることが正しいとか間違っているというつもりは毛頭ありません。ただ、このような話を聞いたときに、統計や機械学習を嗜むものが、どのように受け取り、考えるのが良いのか。そんなことを記事にしてみました。
統計的に考えてみる
データの準備
まずデータを準備します。基本的には出ている情報を鵜呑みにしつつ、オリジナルでもデータをいくつか取得します。結果としては下記のようなデータが集まりました。
# | データ | 概要 | 備考 |
---|---|---|---|
1 | 2015, 2016での産後うつによる自殺者数 | 2名 | NHKのWebページより |
2 | 2016年の自殺者数 | 20~24歳 1001名 | 厚生労働省 人口動態統計に基づく自殺の状況より |
3 | ↑ | 25~29歳 1165名 | ↑ |
4 | ↑ | 30~34歳 1253名 | ↑ |
5 | ↑ | 35~39歳 1445名 | ↑ |
6 | 2016年6月時点の人口 | 20~24歳 6132 千人(女性 2984 千人) | 総務省統計局2016年調査資料の人口推計より |
7 | ↑ | 25~29歳 6439 千人(女性 3149 千人) | ↑ |
8 | ↑ | 30~34歳 7309 千人(女性 3600 千人) | ↑ |
9 | ↑ | 35~39歳 8209 千人(女性 4047 千人) | ↑ |
10 | 2016/10/1時点の0歳の人口 | 1002 千人 | ↑ |
各番号の添字を使って、$x_1=92$,$x_2=1243$というように今後使います。
考え方
私が考えた統計的アプローチは下記の通りです。
- 仮定
- すべての子供は20歳〜39歳までの女性から生まれるとする
- 2016年10月1日時点の0歳児のうち、1%は双子として生まれているとする。
- NHKの発表の92名の自殺者は一様分布で発生したと仮定し、1年で46名とする
- アプローチ
- 20〜39歳の人口のうち、自殺者が出る確率分布を、二項分布と考える。
- 産後1年間で出産をした女性のうち、自殺者が出る確率分布を、二項分布と考える。
- 上記2つの二項分布について検定を行い、同様の分布といえるのか、いえないのか、を考える。
仮定も強いし、二項分布でいいのか、なども色々思うところはありますが、初手としてはまぁいいかなぁと考えています。もっと賢く考える方法もたくさんあると思います。
ちなみに簡単な計算だけしておきましょう。
- 全人口中で自殺者がでる確率
$\pi_0=(x_2+x_3+x_4+x_5)/(x_6+x_7+x_8+x_9) = 0.000173$ - そのうち産後うつによる自殺者が出る確率
$\pi=(x_1/2)/(0.995 * x_{10}) = 0.0000461$
単純にこの数字だけ見ると、産後うつで自殺する方は全体の自殺者からすると確率的には少なく見えます。Xの話題の投稿者は、産後1年間は自殺者が少ないというように結論づけていましたが、どうでしょうか。とりあえず今は、自分のアプローチを優先し、この差が有意なのかを検証することにします。
検定
下記のような帰無仮説と対立仮説を考えることとします。
帰無仮説H0: 1年間で出産をした女性のうちの自殺者がでる確率は、20〜39歳の全人口のうち自殺者が出る確率と等しい。($\pi=\pi_0$)
対立仮説H1: 等しくない。
検定方法としては、二項検定と呼ばれる検定が一般的であり、Wikipediaにもあるので参照していただけます。いま$\pi<\pi_0$と観測されたので、その場合のp値は下記のように表されます。
p=\sum_{i=0}^kPr(X=i)=\sum_{i=0}^k\left(\begin{array}{c} n \\ i \end{array}\right) \pi_0^i(1-\pi_0)^{n-1}
この式にi=46から女性の数までの確率を求め、これらを合計すると求めることができるのですが、nの数が大きすぎるので、コンピュータでは$nCi$の計算が難しいです。今回は二項分布の期待値$np$、分散$np(1-p)$どちらも大きいため、正規分布で近似を行い、z値による検定を行います。
$$
z=\frac{k-n\pi_0}{\sqrt{n\pi_0(1-\pi_0)}}
$$
この式に$k=46$, $n=0.995 * x_{10}$, $\pi_0=0.000173$を代入して計算すると、$z=-9.64$という、非常に大きなマイナスの値になります。これは帰無仮説が棄却されるということを意味します。
要するに、全体の自殺者数の分布と、産後うつによる自殺者の分布は、同じとは言えない状況です。産後うつによる自殺者の確率のほうが低いので、低い方向に異なっています。
結論と考察
やっぱり前評判通り、全体に比べると、産後うつによる自殺は少ない。
という結論でいいのでしょうか?おそらく答えはNoです。
ここまでの前提は、人口全体における自殺の確率と、産後1年の女性が産後うつによって自殺をする確率を述べてきました。しかし、そもそも産後うつによる自殺というケースが特殊です。産後1年で自殺をする方の全部の自殺が産後うつではないし、比較として正しいのか、議論が必要です。
少し着眼点を変えて、産後1年間に自殺をするケースの中で、産後うつによって自殺をする割合が高いのではないか?ということを考えてみます。
例えば、全体での自殺確率$\pi_0$は0.000173ですから、この確率をそのまま産後1年間の女性全体で考えると、期待値$n * \pi_0=172.6$が計算されます。つまり、ざっくりと産後1年間で173名程度の方が自殺するということです。そのうち46名もの人、割合にして27%もの人が産後うつによる自殺となっています。
あくまでも期待値ベースで話をしているので、もう少し違った数値かもしれません。仮に期待値が過小で、1$\sigma$ほど多い値だとすると$n\pi_0 + \sqrt(n\pi_0(1-\pi_0))=185$。これでも25%の人が産後うつで亡くなっていることになります。産後うつによる自殺というのは産後1年間のみを対象としているので、それ以外の人の中ではこの割合は0%になるわけで、大きな値です。
そして、もう少し個別の事情を考えてみれば、産後1年間というのは、あらゆる状況で他の人の目に入ります。例えば母子ともに1ヶ月検診や、子供の生後半年の検診、両親教室や、様々なライフイベントなどです。そのような他人と関わる可能性が高い状況でも、うつを発症し、自殺まで追い込まれてしまうケースが多いという状況は危険視して然るべきなのかなと感じます。
統計と個別事情について
統計的に見えるのはあくまでも数値です。それも個別の状況にはまったく踏み入らない、色のない数値を対象とします。実際に自殺をする方は1件1件まったく異なる状況で、原因で、決断で事象が発生しています。そのような個別の状況に立ち入らず、数値だけを見て何かを判断するのは一般的には軽率であって、今回のような騒ぎが起きるのだと思います。
平均的にどうだ、確率的にどうだ、というだけの数字あそびを行って、人をからかったり、炎上商法をすることはとても簡単ですが、確率やデータに対するリテラシーを持って生きていくことが大事なのかなと今回の騒ぎを見て感じました。
(例えば車を買うのに現金一括で払わないほうがいい。なぜならばその現金を何%で運用すれば、ローンで借りた利率を上回れる、とか、そういうのも個の事情に立ち入っていない数字あそびです。何十億円も持っていたら小銭感覚で購入できるし、キャッシュで買うことに喜びを感じる人もいるし、例えば体の不調などの理由で銀行の審査が通らない方もいるわけです。)
まとめ
当たり前のことですが、色々な観点でデータを見て、ちゃんと考えることが大事。ってことに尽きる。
検討方法について反省
なんか色々計算したけど、そもそも試行回数がものすごく多いようなケースでは、p値を使って検定を行おうとするとあんまり意味ない状況になりがちで、今回のケースはあるあるです。今回のデータは全数調査を行っているようなものなので、統計的検定を行う必要性がどの程度あるか、も疑問です。
もっと良いモデリングや、定式化もあるような気もするし、もっとデータの使い方もあるような気もします。まぁあまり深く立ち入るつもりはないのでこの辺で。。