ツイッター情報の数値を再計算検証するとともに、区間推定のやり方をメモしておく。
SSキャラドロップ率の話
ロマサガ リユニバース(以下、ロマサガRS。ソシャゲ)ではリュートなどのSSランクキャラクターがドロップする。
19’8月頃のバージョンアップでドロップするようになったが、自分はサッパリ落ちなくて萎えている..
ネット上でも落ちなくて萎えてる人たちから、すぐ落ちたぜ?みたいな人までいて偏りが見られる。また、ドロップ率は公式公開されておらず、実際どの程度のドロップ率なのかは有志達の検証待ち状態。周回が辛いので様子見していたが、ついに検証結果をまとめてくれる猛者が現れた →twitter検証者のツイート
以下、ツイートを抜粋
合計周回数 3,200回
合計ドロップ数 31体
平均ドロップ率 0.97%
結果、ドロップ率は
99%信頼区間では0.52%~1.41%
95%信頼区間では0.63%~1.31%
となりました。
ツイ主は「統計を勉強中だから間違ってたらゴメン」と言ってるので、
周回結果は信用することにして、信頼区間について再計算を行う。
信頼区間の考え方
点推定と区間推定の話の詳細は以下参照。
https://to-kei.net/basic/glossary/statistical-estimation/
実験結果の平均(ドロップ率の平均)から、真のドロップ率も同じ値だと推定することを点推定という。ただ、母集団においてどの程度信頼できるかわからないため、点推定の値がどの程度の信頼度か推定する事を区間推定と言う。
つまり猛者のツイ主は以下のように言っている。
- 実験から得られた平均ドロップ率は0.97%だった
- だからきっと真のドロップ率も0.97%くらいだよ
- 100回中99回のドロップ率は0.52%~1.41%になるよ
t分布を使用した区間推定
t分布の詳細は以下参照。
https://bellcurve.jp/statistics/course/8968.html
t分布は自由度(つまり標本データ数。ここでは周回数)によって分布が変わるが、自由度=30程度でだいたい標準正規分布と一致する(私見だけど)。今回は自由度=3200のため、t分布は標準正規分布に一致するとみなす。また、母集団(真のドロップ率)はたぶん乱数制御なので正規分布だろうと想像できることと、標本数が十分多いことからt分布を使用した区間推定で問題ないと考える。
信頼区間95%, 99%の臨界値はそれぞれ以下のように表せる。
- P[-2.0<T<2.0]=0.95
- P[-2.6<T<2.6]=0.99
2.0, 2.6の値の拾い方
下記の標準正規分布表から値を拾った。
https://www.koka.ac.jp/morigiwa/sjs/standard_normal_distribution.htm
表は縦軸がZ値の小数点1桁目、横軸がZ値の小数点2桁目を表しているが、値を拾うときは小数点1桁目の部分のみ参照した(つまり、めんどくさいので一番左の列だけ見た)。表のセル値は片側の面積を表しており、2倍して95%(99%)を超えるZ値を拾った。
具体的には、(行, 列)=(2.0,0)= .4772 なので、0.4772*2=0.9544 となるため、Z=2.0を採用、という流れ。
T値について
T値は不偏標準分散を使って算出する。
$\begin{aligned}
T &= \frac{(m−μ)}{SE} ・・・(1) \\
&(m:標本平均, μ:母平均, SE:標準誤差)
\end{aligned}$
標準誤差SEは下式であらわされる。ここでの標準誤差は不偏標準偏差を用いるためσではなくuと表現した。
$\begin{aligned}
SE &=\sqrt{\frac{u^2}{n}} = \frac{u}{\sqrt{n}} ・・・(2) \\
&(u: 不偏標準偏差)
\end{aligned}$
(1)式、(2)式より
$T = \frac{(m−μ)}{u/\sqrt{n}} ・・・(3)$
信頼区間の算出式
以上より、95%区間を例にすると(A)式となる。
$\begin{aligned}
P[-2.0<T<2.0] &= P[-2.0 < (m-μ)/(u/√n) < 2.0] \\
&= P[m-2.0(u/√n) < μ < m+2.0(u/√n)] …(A)
\end{aligned}$
値の計算
-
標本平均
$m = 31/3200 = 0.0096875$ -
$Σ(x_i-m)^2$の計算
何度か同じ計算が出てくるため、別途計算しておく。
$x_i=1$は31回, $x_i=0$は(3200-31)回発生しているため、下式で計算した。
$\begin{aligned}
Σ(x_i-m)^2 &= (1-0.0096875)^231 + (0-0.0096875)^2(3200-32) \\
&= 30.6996875
\end{aligned}$ -
標本分散
$\begin{aligned}
s^2 &= 1/nΣ(x_i-m)^2 \\
&= 1/320030.6996875 \\
&= 0.00959365234375... \\
&≒ 0.00959
\end{aligned}$ -
標準偏差
$s = \sqrt(s^2) ≒ 0.0980$ -
不偏分散
$\begin{aligned}
u^2 &= \frac{1}{n-1}\sum_{i=1}^{n}{(x_i-m)^2} (n:標本数, x_i:標本データ) \\
&= 1/(3200-1)*Σ(xi-m)^2 \\
&= 0.009596651297280... \\
&≒ 0.00960
\end{aligned}$ -
不偏標準偏差
$u=\sqrt{u^2}= 0.0980$ -
標準誤差
$\begin{aligned}
u/√n &= 0.0980/√3200 \\
&= 0.00173241... \\
&≒ 0.00173
\end{aligned}$
信頼区間95%の場合、(A)式に代入して計算すると
$\begin{aligned}
P[-2.0<T<2.0] &= P[m-2.0(u/√n) < μ < m+2.0(u/√n)] \\
&= P[0.0096875-2.0(0.00173) < μ < 0.0096875+2.0(0.00173)] \\
&= P[0.0062275 < μ < 0.0131475]
\end{aligned}$
μは母平均(つまり、真のドロップ率)を表しているので、100倍して確率表記すると
0.62% < μ < 1.31% となる。
信頼区間99%の場合、同様に
$\begin{aligned}
P[-2.6<T<2.6] &= P[m-2.6(u/√n) < μ < m+2.6(u/√n)] \\
&= P[0.0096875-2.6(0.00173) < μ < 0.0096875+2.6(0.00173)] \\
&= P[0.0051895 < μ < 0.0141855]
\end{aligned}$
結論
よって信頼区間は以下のようになり、ツイ主の結果と一致した。
* 平均確率: 0.97%
* 95%信頼区間: 0.62% ~ 1.31%
* 99%信頼区間: 0.52% ~ 1.42%
ドロップ確率は0.5~1.4%(=1/71~1/200)くらいなので
パチンコで考えると、開店と同時に甘デジ打ち始めて10回転できたわぁ!みたいなときもあれば
1000回近くハマって死にそうになることがあるって感覚かな。萎える..