More than 1 year has passed since last update.

社会の問題をデータ分析で－フジテレビ「THE SECOND」の後攻有利について－

Last updated at 2023-05-20Posted at 2023-05-19

フジテレビの『THE　SECOND』
https://www.fujitv.co.jp/the-second/

「開幕戦ノックアウトステージ（32→16）」と「ノックアウトステージ(16→8)」で「後攻有利では」との意見があったので検定してみた。

import pandas as pd
from scipy import stats
import matplotlib.pyplot as plt

df = pd.read_csv('THESECOND.csv')
df = df.dropna()
df['first'] = df['first'].astype(int)
df

first	second
0	232	252
1	252	257
2	284	274
3	233	254
4	257	266
5	254	266
6	248	239
7	252	277
8	225	281
10	269	269
11	271	260
12	232	277
13	245	276
14	265	269
15	265	282
16	273	283
17	276	290
18	274	275
19	284	285
20	269	275
21	234	284
22	289	258
23	271	278

東京ダイナマイトさんが欠場で１レコードは削除しています。

plt.hist(df['first'], bins = 10, alpha = 0.5, label='first')
plt.hist(df['second'], bins = 10, alpha = 0.5, label='second')
plt.legend(loc='upper left')

plt.show()

なるほど後攻有利に見える。Weltchのt検定をしてみる

stats.ttest_ind(df['first'], df['second'], equal_var = False)

Ttest_indResult(statistic=-2.514719088692096, pvalue=0.016210681692063588)

ご指摘あり、効果量を見てみる
効果量については
Staat様の技術ブログ効果量
など

t検定では0.８０でも大きいらしい。

abs(-2.514719088692096)*((24+24)/24*24)**0.5

17.42


- おを、やはりあり得ない値か。後攻有利。

# でも「開幕戦ノックアウトステージ（32→16）」よりも「ノックアウトステージ(16→8)」の方が僅差なので、分けてみた。

```python
df1 = df.iloc[0:15, :] # 開幕戦ノックアウトステージ（32→16）
df2 = df.iloc[15:, :]  # ノックアウトステージ(16→8)

「開幕戦ノックアウトステージ（32→16）」

plt.hist(df1['first'], bins = 10, alpha = 0.5, label='first')
plt.hist(df1['second'], bins = 10, alpha = 0.5, label='second')
plt.legend(loc='upper left')

plt.show()

stats.ttest_ind(df1['first'], df1['second'], equal_var = False)

Ttest_indResult(statistic=-2.6637042977615826, pvalue=0.01321143249116919)

同じく効果量

stats.ttest_ind(df1['first'], df1['second'], equal_var = False)

14.59

「開幕戦ノックアウトステージ（32→16）」はやはり後攻有利か。

「ノックアウトステージ(16→8)」

plt.hist(df2['first'], bins = 10, alpha = 0.5, label='first')
plt.hist(df2['second'], bins = 10, alpha = 0.5, label='second')
plt.legend(loc='upper left')

plt.show()

外れ値があるものの意外と拮抗？

stats.ttest_ind(df2['first'], df2['second'], equal_var = False)

Ttest_indResult(statistic=-1.069473268339255, pvalue=0.30700785772217687)

abs(-1.069473268339255)*((8+8)/8*8)**0.5

4.28

とのことで、効果量が大きく減ってはいるものの0.８０を大きく上回っており、後攻有利が弱またったとまでは言えなさそう。

ということで決勝戦ではそマシンガンズさんと囲碁将棋さんの決勝戦を期待しています。

Weltchのt検定でよいのかって？

マイナーだけど最強の統計的検定 Brunner-Munzel 検定
の記事が参考になります。

サンプルサイズの考察抜け、私もいつもはBoxプロットかJitterプロットにするのですが、不用意にヒストグラムを描いてしまうなど大変失礼いたしました。統計的に正しくは本記事にコメントをいただいておりますので、そちらをご参照ください。

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up