Edited at

信頼区間と不確かさ(“α = 7.297 352 569 3(11)×10⁻³”とは一体何を意味するのか)


信頼区間と不確かさ

―“$\alpha=7.297\,352\,5693(11)\times10^{-3}$”とは一体何を意味するのか―


要約

物理量計測における不確かさ評価は、真値を平均、標準不確かさを標準偏差とする正規分布に基づく$\pm\sigma$相当の信頼区間であると多くの場合理解されている。多くの場合はこの主張が成立するために必要な仮定を満たしてはいない。だが、数値的に確かめてみると、多くのケースでは前述の理解に基づく信頼水準と有効桁数1桁の精度で、大きな食い違いはないとみなせる。差異のうち一定部分は小標本にもかかわらずt分布の代わりに正規分布を用いるところから生じており、正しくt分布を用いることでかなりの程度解消できる。


はじめに

大学で統計学を履修すると、必ず区間推定、あるいは「信頼区間」の概念が扱われる1。しかしながら、この「信頼区間」の概念は極めて誤解されやすいのが実情である2

数理的には信頼区間の概念は、下記に黒木が述べるように極めて明解である3

この黒木の定義は、「現実に得られる標本が属している母集団」と「数理モデルとして仮定する確率分布」を区別する必要があるという黒木の主張4に基づいている。ここを区別しておけば数理モデルの世界の中で話が閉じるし、何だったら数値実験でもして端点の帰無仮説が確率$\alpha$で棄却されるかを確かめることだってでき、繰り返すが非常に明解である。筆者もこの主張に納得する。

とはいえ、その明解さは「現実世界で起こっている事態と数理モデルの中の仮想的設定をどう繋げばいいのか」という悩みを完全に棚上げして得られるものである。この悩みが解決できないと、結局実験で何を測定しているのかが全く見えてこない。

具体例を考えてみよう。例えば、微細構造定数5

$$ \alpha=\frac{e^2}{4\pi\varepsilon_0\hbar c}=7.297\,352\,5693(11)\times10^{-3}$$

の不確かさは$1.1\times10^{-11}$である。この表現を見たときに、少なくとも筆者はなんとなく、こういうふうに直観的に捉えてしまう。「$\alpha$の真値は$7.297\,352\,5693\times10^{-3}$の近辺にあって、$\pm1.1\times10^{-11}$の範囲外である可能性は小さいだろう。」これは妥当なのだろうか。あるいは、先日のSIの改定においては、キログラムの定義改定に踏み切る判断をするに際し、プランク定数の相対標準不確かさがキログラム原器のそれを下回ることを要求していた。これは少なくとも、標準不確かさが、少なくとも1桁程度の精度で定量的比較が可能であることを前提としている。この前提は本当に正しいのだろうか。


直接測定の例


例題

次の例を考えてみよう。


長さ$1.000\,\text{m}$の単振り子の周期を10回測定した結果、次の測定値が得られた。

測定値
周期 [s]

$T_{1}$
2.006

$T_{2}$
1.985

$T_{3}$
1.947

$T_{4}$
2.042

$T_{5}$
2.039

$T_{6}$
2.001

$T_{7}$
1.988

$T_{8}$
2.037

$T_{9}$
1.968

$T_{10}$
2.023

このとき、測定値の標本平均は$$\bar{T}=\frac{1}{N}\sum_iT_i=2.00\,\text{s}$$、標本不偏分散は$$s^2=\frac{1}{N-1}\sum_i(T_i-\bar{T})^2=1\times10^{-3}\,\text{s}^2$$、標準不確かさ6をタイプA評価すると、$$\frac{s}{\sqrt{N}}=1\times10^{-2}\,\text{s}$$である(ただし以下$N=10$)。学生がこの実験レポートを書くとき、こう記述することになるだろう。

$$T=2.00(1)\,\text{s}$$


数理モデルの世界

このとき、次のような数理モデルを考える。



  • 仮定0 :$x_1,\dots,x_N$は平均$\mu$の独立同分布に従う確率変数の実現値である。


  • 仮定1 :$x_1,\dots,x_N$が従う分布は正規分布である。


  • 仮定2 :$N$は十分大きく、自由度$N-1$のt分布は正規分布で十分な精度の近似ができる。

標本平均を$m=\frac{1}{N}\sum_i x_i$とする。これらの仮定の下、$\mu>2.01$であるとしたら、$m\le 2.00$となる事象が実現する確率は16%より低くなる。言い換えれば、十分大きなセット数$n$だけ$m$を求める操作を独立に繰り返したら、求めた$m$のうちで2.00を下回るものは$0.16n$個よりは少なくなるだろう。$\mu<1.99$の場合も同様である。すなわち、$\mu\not\in[1.99,2.01]$であるにもかかわらず$m=2.00$が実現したとしたら、それは「稀な」事象が発生したと言える。逆に、$\mu\in[1.99,2.01]$であるならば、$m=2.00$は「ありふれた事象」である。

仮定1・2の代わりに次の仮定をおいても、中心極限定理により同じ結論が成立する。

- 仮定1' :$x_1,\dots,x_N$が従う分布の分散は十分な精度で$s^2=1\times10^{-3}\,\text{s}^2$とみなせる。

- 仮定2' :$N$は十分大きく、$m/s$が従う確率分布は正規分布として十分な精度の近似ができる。

ところで、ここで得られた$m$は$\mu$のどのような意味での推定量となっているだろうか。仮定0を認めれば、大数の強法則より$m$は一致推定量となっている。即ち、$N$を十分大きく取れば、得られた$m$は$\mu$に十分な精度で一致している。仮定0を認めなくとも$m$は自明に不偏推定量となっている。即ち、十分大きなセット数$n$だけ$m$を求める操作を繰り返し、得られた$m$の平均をとれば、その平均は$\mu$に十分な精度で一致しているのだが、この主張は実務上は$m$が一致推定量となっているという主張とほぼ等しい。更に仮定1を認めれば、$m$は$\mu$の有効推定量となっている($m$の分散がCramér-Rao下限を達成する)。よって$m$は最小分散不偏推定量である。つまり、$\mu$の不偏推定量のうち、十分大きなセット数$n$だけその推定量$m'$を求める操作を繰り返したとき$m'$の分散が最も小さくなるものが$m$である。また、$m$は最尤推定量である。つまり、様々な$\mu$の中で$m=2.00$が得られるのが最も「ありふれて」いるのは$\mu=2.00$の場合である。仮定1が成立しないとしても、次の仮定1''を認めれば$m$は最尤推定量となる。



  • 仮定1'' :$x_1,\dots,x_N$が従う分布は左右対称であり、かつ単峰性である。


現実世界との対応

さて、上記数理モデルは非常に明解である。ところで、現実に起こった上記の実験を、どう当てはめればよいのだろうか。下記の仮定を考える。



  • 仮定X :測定値$T_1,\dots,T_N$は周期の真値$T$を平均とする同分布に従って独立に観測される値である。


  • 仮定Y :$T_1,\dots,T_N$が従う分布は正規分布である。


  • 仮定Y' :$T_1,\dots,T_N$が従う分布の分散は十分な精度で$s^2=1\times10^{-3}\,\text{s}^2$とみなせる。

仮定X・仮定Y・仮定2もしくは仮定X・仮定Y'・仮定2'を認めれば、$T\not\in[1.99\,\text{s},2.01\,\text{s}]$のときに$\bar{T}=2.00\,\text{s}$よりも「偏っている」結果が得られる確率は16%よりは低いと言えるだろう。言い換えれば、問題は、これらの仮定は本当に成り立っているのかである。

仮定Xが成り立たないケースはしばしば見られる。例えば、系統誤差が存在するケースや、各々の測定値に含まれる誤差が独立ではないケースでは、仮定Xは成立しない。このようなケースが起こるのは深刻な問題であって、実験はそうならないようにデザインされるべきであるということについては多くの人の合意が得られるだろう。

一方、仮定Yもしくは仮定Y'は実験デザインで解決できる問題でもないし、成立しているかは極めて怪しい7

仮定Y'について考えよう。$s^2$は確かに$T_i$が従う分布の分散の一致推定量であり、不偏推定量でもある。$N$が十分大きい場合は仮定Y'が成立しているとみなすのは妥当ではある。しかしながら、$s$は標準偏差の一致推定量であるが、不偏性はない8。最尤推定量である保証はまったくないし、何なら$T_i$が正規分布に従うとしたらその分散の最尤推定量は$\frac{N}{N-1}s^2$である。

実際に数理モデルに戻って数値実験してみよう。正規分布を例に挙げる。平均$\mu$、分散$\sigma$の正規分布に独立に従う確率変数$z_1,\dots,z_N$を考える。標本平均を$m=\frac{1}{N}\sum_iz_i$、標本不偏分散を$s^2=\frac{1}{N-1}\sum_i(z_i-m)^2$とすると、$(N-1)\frac{s^2}{\sigma^2}$は自由度$N-1$の$\chi^2$分布に従うことが知られている。物理学の慣習に合わせて、信頼水準を正規分布の$\pm\sigma$の$\alpha=0.6827\dots$とかなり粗めに設定する。信頼区間の幅が$0.1s^2$程度になる、即ち標本不偏分散が母分散と2桁程度で「合う」ためにはどの程度の自由度が必要だろうか。計算してみると、$N=1591$だ。そうそう易々と得られる自由度ではない。信頼区間の幅が$s^2$程度まで粗くてよければ$N=17$でよいが9、分散が半分かもしれない(標準偏差が0.7倍かもしれない)ようであれば、肝心の標本平均の信頼区間がだいぶずれてしまう。

# Julia

using Distributions
confint(dist,alpha) = (quantile(dist,alpha/2), cquantile(dist,alpha/2))
alpha = cdf(Normal(),-1)
confintarray = map( nu -> confint(Chisq(nu),alpha)./nu, collect(1:10000) )
nu = findfirst( ci -> ((ci[2]-ci[1])<0.1), confintarray )
println("ν = $(nu)") # ν = 1590
println("Confidence Interval: ( $(confintarray[nu][1])s², $(confintarray[nu][2])s² )")
# Confidence Interval: ( 0.9504289036186134s², 1.0503987284534442s² )
nu = findfirst( ci -> ((ci[2]-ci[1])<1), confintarray )
println("ν = $(nu)") # ν = 16
println("Confidence Interval: ( $(confintarray[nu][1])s², $(confintarray[nu][2])s² )")
# Confidence Interval: ( 0.5511991698507234s², 1.5306492377045395s² )

仮定Y'が成立するためには一般にはかなり多くの標本数を必要とするであろうことが分かった。では、仮定Yはどうであろうか。こればかりは測定の詳細による。正規性の検定を行った結果、帰無仮説が棄却されなければ、仮定Yを暫定的に認めてよいようにも思われる10。なお、正規性が成立しないとして、実験結果の分布が左右対称にならないようであれば、標本平均は母平均の最尤推定量ではなくなってしまったり11、中心極限定理の収束も遅くなったりと12色々不都合なので、測定するのは本当にその物理量で妥当なのか実験デザインを考え直したほうがよいように思われる。


数値実験

実際に、数値モデルの世界に戻って、有限尖度や有限歪度の分布で数値実験してみよう。自由度$\nu$のt分布13に従う確率変数$t_1,\dots,t_N$に対し、$\sqrt{N}m/s\in[-1,1]$となる割合を求めてみる。尖度が0.1となる$\nu=64$、1となる$\nu=10$、3となる$\nu=6$で試してみる。尖度が1だが歪度が$\sqrt{2}$の自由度4$\chi^2$分布とも比較してみよう。

using Distributions

isinner(r,N;mu=0,k=1) = ( -k < sqrt(N)*(mean(r)-mu)/std(r) < k ) # rは確率変数の実現値の列
n = 1000000 # 標本平均を求めるセット数
N = 10 # 標本数

println( cdf(Normal(),1)-cdf(Normal(),-1) ) # 0.683
println( cdf(TDist(9),1)-cdf(TDist(9),-1) ) # 0.657

T64 = TDist(64)
println( count(x->isinner(rand(T64,N),N),collect(1:n)) / n ) # ~0.655
T10 = TDist(10)
println( count(x->isinner(rand(T10,N),N),collect(1:n)) / n ) # ~0.652
T4 = TDist(10)
println( count(x->isinner(rand(T64,N),N),collect(1:n)) / n ) # ~0.649

N = 20
println( cdf(TDist(19),1)-cdf(TDist(19),-1) ) # 0.670
println( count(x->isinner(rand(T64,N),N),collect(1:n)) / n ) # ~0.667
N = 30
println( cdf(TDist(19),1)-cdf(TDist(19),-1) ) # 0.674
println( count(x->isinner(rand(T64,N),N),collect(1:n)) / n ) # ~0.672

N = 10
Ch4 = Chisq(4)
println( count(x->isinner(rand(Ch12,N),N,mu=12),collect(1:n)) / n ) # ~0.651
println( count(x->(mean(rand(Ch12,N))>12),collect(1:n)) / n ) # ~0.470

println( cdf(Normal(),2)-cdf(Normal(),-2) ) # 0.954
println( cdf(TDist(9),2)-cdf(TDist(9),-2) ) # 0.923
println( count(x->isinner(rand(T10,N),N,k=2),collect(1:n)) / n ) # ~0.925

……!?数パーセントの誤差はあるが、$N=10$程度でも標本平均の分布は正規分布で十分近似できている? しかも、正規分布との差異の大部分は、標本平均が正規分布ではなく対応する自由度のt分布に従うと考えれば説明できてしまう。分布の裾になるとこの影響は顕著に現れる。とはいえ、歪度有限の分布はやはり偏りが気になる。


まとめ


  • Aタイプの不確かさを定量的に議論したい場合、標本平均が分散既知の正規分布に十分な精度で従っているとみなせる必要がある(もしそうでないと定量的比較ができない)。

  • 実験値の分布の母分散が既知であることはまずありえないうえに標本不偏分散から推定することも無理がある。更に、実験値が正規分布に従って得られるという確信もない。

  • ところが、数値実験の結果によると、歪度・尖度が$\sim1$の分布は$N=10$でも$(-\sigma,\sigma)$の範囲内において、数パーセントの誤差で十分正規分布に近いとみなしてよい。この数学的裏付けは筆者にはできていない。無論、拡張不確かさを議論して分布の裾へ行けば行くほど条件は厳しくなる。

  • 元の確率変数が従う分布が正規分布でなくとも、小標本論に基づき正規分布の代わりにt分布を用いれば、誤差の大部分が解消される14

  • 有限歪度の分布は一般に平均値と最頻値が異なるため、点推定においても最尤性と不偏性が両立しない。このとき何を「真値」とみなすのが妥当かも筆者には考えがまとまっていない。

冒頭の例題について、長さ$1.000\,\text{m}$の単振り子の周期を測定したところ

$$T=2.00(1)\,\text{s}$$

が得られた。周期の真値が$T\not\in[1.99\,\text{s},2.01\,\text{s}]$であるにもかかわらずこれ以上に偏った測定値が偶然得られる確率は、測定値の分布の高次モーメントがあまり大きすぎないという仮定のもとで、16%とは言わないまでも、20%よりは小さいといってよさそうである。


不確かさの伝播


例題

さて、長さ$l=1.000\,\text{m}$の単振り子の周期$T$が得られた。微小振幅の単振り子の周期は重力加速度$g$を用いて

$$T=2\pi\sqrt{\frac{l}{g}}$$

と表せるため、ここから重力加速度

$$g=\left(\frac{2\pi}{T}\right)^2l$$

が得られる。

この重力加速度の不確かさ$u_g$は、周期の不確かさを$u_T$、長さの不確かさを$u_l$とすると、不確かさ伝播則により

$${u_g}^2=\left(\frac{\partial g}{\partial T}\right)^2{u_T}^2+\left(\frac{\partial g}{\partial l}\right)^2{u_l}^2$$

と表せる。これは両辺を$g$で除して相対不確かさの関係にするとより見やすい。

$$\left(\frac{u_g}{g}\right)^2=4\left(\frac{u_T}{T}\right)^2+\left(\frac{u_l}{l}\right)^2$$

長さは最小目盛り1 mmのメジャーで計測したとしよう。相対不確かさをタイプB評価すると、おもりの重心のずれや糸の伸び等勘案してもせいぜい$u_l/l\lesssim1\times10^{-3}$とみなせる。これは周期の相対不確かさに比べて十分無視できる。有限振幅であること、また実際には空気抵抗や始点での摩擦が生じることによる周期の偏りもタイプB評価の必要があるが、こちらも振幅やおもりの質量を変更させても測定値がタイプA評価の不確かさと比較して十分頑健であったとして、無視するものとしよう。

結果、得られた重力加速度は、下記のとおりとなる。

$$g=9.8(1)\,\text{m}/\text{s}^2$$

この結果はどのように解釈できるだろうか。$T$が正規分布に従っているならばそれを非線型変換した$g$は当然正規分布には従っていない。


一変数の伝播

まずは一変数で数理モデルを考える。$x$が平均$x_*$、分散${u_x}^2$の正規分布に従っていると仮定しよう。この$x_*$を標本平均から得た推定値、$u_x$を$x$の不確かさとみなす。このとき、$y=f(x)$で変換される変数$y$の不確かさ$u_y$は

$$u_y=\left\lvert \frac{\partial y}{\partial x}\right\rvert u_x$$

で表される。正規分布に従って多数の$x$の実現値を得たとき、$y\in[y_*-u_y,y_*+u_y]$の範囲に収まっている$y$の割合はどの程度であろうか。数値実験してみよう。

using Distributions

function main(f,df,x,ux=abs(x/10),n=1000000)
Z = Normal(x,ux)
y = f(x)
uy = abs(df(x))*ux
r = count( Y->(y-uy<Y<y+uy), f.(rand(Z,n)) )/n
println( "Ratio: $(r)\tRelative Uncertainty: $(abs(ux/x)) -> $(abs(uy/y))" )
end

main( x->x^2, x->2x, 1 ) # Ratio: ~0.68 Relative Uncertainty: 0.1 -> 0.2
main( x->x^2, x->2x, 100 ) # Ratio: ~0.68 Relative Uncertainty: 0.1 -> 0.2
main( x->x^4, x->4x^3, 1 ) # Ratio: ~0.69 Relative Uncertainty: 0.1 -> 0.4
main( x->x^4, x->4x^3, 100 ) # Ratio: ~0.69 Relative Uncertainty: 0.1 -> 0.4
main( x->exp(x), x->exp(x), 1 ) # Ratio: ~0.68 Relative Uncertainty: 0.1 -> 0.1
main( x->exp(x), x->exp(x), 4 ) # Ratio: ~0.69 Relative Uncertainty: 0.1 -> 0.4
main( x->exp(x), x->exp(x), 10 ) # Ratio: ~0.76 Relative Uncertainty: 0.1 -> 1.0
main( x->exp(x), x->exp(x), -10 ) # Ratio: ~0.76 Relative Uncertainty: 0.1 -> 1.0
main( x->log(x), x->1/x, 0.01 ) # Ratio: ~0.68 Relative Uncertainty: 0.1 -> 0.022
main( x->(x-1)^(-1), x->-(x-1)^(-2), 1-0.01 ) # Ratio: ~0.99 Relative Uncertainty: 0.1 -> 9.90
main( x->(x-1)^2+1, x->2(x-1), 1 ) # Ratio: 0.0 Relative Uncertainty: 0.1 -> 0.0

冪関数であれば、指数に応じて割合が正規分布からずれる。指数関数でも傾向は同様で、相対不確かさの増幅度合いが影響していそうだ15。また、特異点付近では不確かさを極端に過大評価し、極値付近では極端に過小評価する傾向が見られるのも分かる。この結果だけ見れば、変換する関数の傾きが$\pm 1$より大きくずれている場合の不確かさ伝播は真に受けてはいけないことが分かる。

ただし、$f$の特異点付近の$x$を計測することで$y=f(x)$を求めるような実験デザインは明らかに筋が悪すぎるとしても、$f$の極値付近の$x$を計測することで$y=f(x)$を求める実験デザインは、$x$の測定誤差の影響を無効化してくれるという点で理想的である16。このように実験をデザインしたときの不確かさ評価は、一体どのように行えばよいのであろうか。筆者にも全く考えがない。

なお、点推定値としての$y_*$について考えてみる。$x_*$が「素性のよい」推定量であったとき、その性質は$y_*$にどれだけ移行するだろうか。明らかに、一致性および最尤性はそのまま移る。これに対し、$y_*$の不偏性は保証されない。このことからも、点推定の際に不偏性を重視することの有益性には疑問符がつく。


多変数の伝播

二変数の場合のみを考えれば十分である。$z=f(x,y)$において、$f$が線型ならば、$x,y$が正規分布に従うとき当然$z$も正規分布に従う。問題は非線型関数の場合であるが、$z=xy$の場合を考察すればほとんどの状況で足りるであろう。これについても相対誤差の二乗和を考えればよいだけなので、前節の結果から$x,y$が十分正規分布に従っているとみなせるならば$z$もまたそうであるはずだ。

(n->count( z->(10-sqrt(2)<z<10+sqrt(2)), rand(Normal(10,1),n).*rand(Normal(1,0.1),n) )/n)(1000000) # ~0.68

なお、タイプB評価を行う際に正規分布を用いない場合がある17。このようなケースでは当然伝播先も正規分布にはならない。現実的には、タイプB評価を行った不確かさが合成不確かさの主要部を占める測定はあまりないであろう。


まとめ


  • 冪がそれほど大きくない関数や、絶対値がそれほど大きくない指数による変換を行っても、変換元の確率変数が正規分布に従っていれば変換先も正規分布に従っているとみなせる。

  • 変換する関数の極値付近では不確かさを極端に過小評価するため注意が必要である。

  • 多変数の場合でも、正規分布に従う独立な確率変数の和や積をとってもやはり正規分布に従っているとみなせる。

  • タイプB評価で正規分布以外の分布を用いた場合、当然伝播先も正規分布にはならない。

以上より、重力加速度の真値が$g\not\in[9.7\,\text{m}/\text{s}^2,9.9\,\text{m}/\text{s}^2]$であるにもかかわらず冒頭に示した、あるいはそれより更に偏ったデータが偶然得られる確率は20%より低いといって問題なかろう。


結論

測定の詳細によるが、「$\alpha$の真値は$7.297\,352\,5693\times10^{-3}$の近辺にあって、$\pm1.1\times10^{-11}$の範囲外である可能性は小さいだろう。」と考えたり、有効桁数1桁程度なら異なる測定により得られた不確かさを定量的に比較しても大きな問題がないことが多い。


おわりに


  • 本稿は、黒木玄さん(twitter)のtweetに触発されて書いたものです。黒木さんのtweetの単純な焼き直しの部分も多いと思います。黒木さんに感謝します。無論、黒木さんの主張を誤解している箇所、黒木さんと異なる主張をしている箇所等あると思います。また、筆者が理解できていない黒木さんのtweetも多数あります(Bayes統計の話題、ガンマ分布の話題、KL情報量の話題など)。本稿に関する責任は全て筆者にあります。

  • Markdown + MathJaxが使えるプラットフォームということで、Qiitaをお借りしました。あまりプログラミングと関係ない話題にも思えますが、申し訳程度にJuliaのコードを載せているので、許してください。


脚注





  1. 高校でも数学Bで統計分野を履修すると扱われることになっている。現在は多くの学校では履修されていないが、次期カリキュラムでは多くの進学校が履修することが予測される。 



  2. Google検索「信頼区間 誤解」 



  3. 黒木は「集合が区間で表されるとき」と留保をつけているが、そうならないケースは「信頼集合」とでも述べるべきなのだろうか。現実的に多峰型の分布を考える必要はないため問題にならないということだろうか。 




  4. など。

  5. この定数を例示対象に選んだ意味は特にない。 



  6. ある程度の物理学の教育を受けた読者を想定しているが、「不確かさ」についてはWikipedia「不確かさ」田中「測定における不確かさの意味と考え方」榎原「不確かさ評価入門」あたりを参照。旧来「誤差」という概念がよく用いられていた。ところが、誤差とは真値と測定値の差であるため、我々にとって真値が不可知である以上誤差も原理的に不可知の量でしかない。そのため現代的には、真値概念を前提としない「測定値のばらつき」を「不確かさ」として「誤差」に代えて用いる。一般には、測定値の標本平均が従う標準偏差の推定値、即ち標本不偏分散を標本数で除したものの平方根を「タイプAの不確かさ評価」として用いるのが一般的である。それ以外にも状況に応じ、離散的測定器の最小目盛りや、計測器の較正など系統的なばらつきによって生じる標準偏差を測定値によらずに推定する「タイプBの不確かさ評価」も用いる。なお、本稿でも「誤差」概念は用いるが、これは真値が理論的に明らかな場合等に用いる。 



  7. 黒木も下記のように述べている。




  8. Wikipedia「標準偏差」参照。標本不偏分散は母分散の不偏推定量であるが、平方根を取る操作が非線型変換である以上、標本不偏分散の平方根は母標準偏差の不偏推定量にはならない。 



  9. 精度が1/10なので、概ね自由度は1/100程度でよかろうという予想は計算前にある程度立つ。 



  10. 仮説検定において帰無仮説が棄却されないからといって、帰無仮説が成立していることは帰結しないというのは、仮説検定の基本中の基本である。つまり、帰無仮説として設定される類の仮説の成立を検定で直接主張することはできない。しかし、科学の営みとして、例えば理論直線にデータが綺麗に載っていることの主張など、帰無仮説の成立こそが主張したいケースはしばしば見られる。これは「検証と反証の非対称性」と同根の問題と考えられる。即ち、ある程度の標本数を確保した上で帰無仮説の棄却に失敗したならば、それを「反証の失敗」と捉えて、暫定的にその帰無仮説の成立を擁護しても、我々の科学の日常的な営みから大きく離れていないだろうというのが筆者の考えである。 



  11. 様々な$\mu$の中で$m=2.00$が得られるのが最も「ありふれて」いる$\mu$が$\mu\neq2.00$の場合であるにもかかわらず、$\mu=2.00$だと推定するには、若干の勇気が要る。確かに不偏推定をしているが、「不偏推定である」という主張はあくまで期待値が母平均と一致することを述べているだけであり、1回きりの事象については確率が高いできごとが起こると考えるのが自然ではなかろうか($10^{-8}$の確率で$10^{12}$円が当選するくじを9000円払って1回だけ引けるとする。期待値は正となるが、参加するだろうか。9000円を損するだけがオチであろう)。 



  12. 中心極限定理の証明を追えば直ちに、確率変数の標本平均が従う分布は一般には正規分布へ$1/\sqrt{N}$の速度で近づいていくことが分かる。ただし、この係数には元の確率変数が従う確率分布の3次モーメントが含まれる。左右対称の分布の場合、あるいはもっと一般に分布の歪度がゼロの場合、正規分布へは$1/N$の速度で近づくのでかなり速くなる。 



  13. ここではパラメタの選択により尖度を自由に変化させられる対称型確率分布の例としてt分布を用いた。小標本論でt分布が登場することとは全く無関係である。ただし、後掲のコード上では小標本の理論に基づくt分布が登場して紛らわしい。コード上では確率分布の単なる例としてのt分布はTnu=TDist(nu)と必ず変数に代入して用い、小標本論に登場するt分布は生のTDist(nu)を用いることとする。なお、t分布の代わりにLaplace分布などを試してみたが、本稿で述べた結果は頑健であった。 



  14. 榎原(p. 16)は、タイプA評価が主となる小標本の不確かさ評価では、t分布を用いて包含係数を調整すべきだと述べている。 



  15. とはいえ、相対不確かさの大きさは定数を加減すればいくらでも操作可能であるので、相対不確かさ自体は問題の本質ではない。 



  16. とはいえ、関数形$y=f(x)$が判明していて、そこで極値を取ることが既に分かっている$y$を改めて測定したいような状況はあまり思い当たらない。理論の検証には使えるであろうか。 



  17. 典型的には、デジタル表示される機器の最小目盛り以下を一様分布に従うとみなすなど。