ダイナマイトプロットはやめよう
駄目グラフ003でも書いたのだが,それは簡単すぎたので,追加する。
ダイナマイトプロットとは,下図のようなものである。
「見本 図の描き方(良い図の例)」などと書いてあるが,見本でもなく,よい図の例でもない。そのような認識自体が誤りなのである。
この図では棒の高さは割合であることはわかるが(たぶん),ひげ(エラーバー)が何を表すか明示されていないことすらある(割合だとして,ひげが 1 を超える意味は不明だろう)。
fig. 1 のエラーバーは棒の上側にしかないので,群を比較するときに不便であるということで,それよりはまし(?)な,fig. 2 のようなものもある。
この図では,エラーバーは「平均値±標準偏差」である。
このような図がよくないのは,棒の部分にデータがある訳ではないということ。実際のデータは,fig. 3 のように分布している。ちなみに,このデータは正規母集団からの標本である。
もっとも,fig. 2 を見せられたら,平均値の差はなさそうだと思うであろう。実際,学会誌や報告書でこのような「差のない図」を見る機会はないであろう。
ここで,「図を描くときは標準誤差を使う」という悪知恵を付けられて fig. 4 を描いて報告することになるかもしれない。確かに差がありそうに見える。我々は,「エラーバーが重なっていなければ有意な差がある」と判断しているのであろう。
検定の多重性はおいておくとして,二群の平均値の差の検定では Group 1 と Group 2 には有意差がなく($p =0.092$),Group 2 と Group 3 には有意差がある($p =0.049$)。
しかし,fig. 4 では,Group 1 と Group 2 にも差があるように見えてしまう。
エラーバーは「平均値 ± 標準誤差」ではなく「平均値 ± $k$×標準誤差」とするほうがよい(?)。
$k$ を自由度 $n-1$ の $t$ 分布の上側確率が 0.025 となるような値とすれば,平均値 ± $k$×標準誤差」は 95% 信頼区間を表す($k$ はサンプルサイズにもよるが,ほぼ 2 としてもよい)。
今度は,fig. 5 では,Group 2 と Group 3 にも差がないように見えてしまう。
信頼区間が重なっていても,平均値には有意な差がある場合がある。
根本的に,fig. 2, fig. 4, fig. 5 は,平均値を表す棒が不要である。棒グラフとは,表現する変数の量(大きさ)を棒の高さで表すものである。1個のデータ(平均値)の大きさを表すものではない。
描くとすれば,fig. 7 のようなものになるだろう。しかし,このグラフは描くに値しないものであることがより明白になる。スカスカなのである。
どうせ描くなら,fig. 8 のように,ゴテゴテといろいろな情報を含む図を描くか(ここでは,多重比較の問題点は考慮しない)。
結局の所,エラーバー付きの平均値のグラフは,そのグラフを見る人にとってはほとんど意味がない,場合によっては誤解を与えるものであるということがわかる。広いスペースをとって,表現しているのは平均値と標準偏差(標準誤差)だけである。図で表す意味がないならば,表で示したほうがましである。