1
0

駄目グラフ003-2

Posted at

ダイナマイトプロットはやめよう

駄目グラフ003でも書いたのだが,それは簡単すぎたので,追加する。

 ダイナマイトプロットとは,下図のようなものである。
 「見本 図の描き方(良い図の例)」などと書いてあるが,見本でもなく,よい図の例でもない。そのような認識自体が誤りなのである。

スクリーンショット 2024-01-19 9.27.08.png

 この図では棒の高さは割合であることはわかるが(たぶん),ひげ(エラーバー)が何を表すか明示されていないことすらある(割合だとして,ひげが 1 を超える意味は不明だろう)。
 fig. 1 のエラーバーは棒の上側にしかないので,群を比較するときに不便であるということで,それよりはまし(?)な,fig. 2 のようなものもある。
 この図では,エラーバーは「平均値±標準偏差」である。

output_3_0.png

 このような図がよくないのは,棒の部分にデータがある訳ではないということ。実際のデータは,fig. 3 のように分布している。ちなみに,このデータは正規母集団からの標本である。

output_5_0.png

 もっとも,fig. 2 を見せられたら,平均値の差はなさそうだと思うであろう。実際,学会誌や報告書でこのような「差のない図」を見る機会はないであろう。
 ここで,「図を描くときは標準誤差を使う」という悪知恵を付けられて fig. 4 を描いて報告することになるかもしれない。確かに差がありそうに見える。我々は,「エラーバーが重なっていなければ有意な差がある」と判断しているのであろう。
 検定の多重性はおいておくとして,二群の平均値の差の検定では Group 1 と Group 2 には有意差がなく($p =0.092$),Group 2 と Group 3 には有意差がある($p =0.049$)。
 しかし,fig. 4 では,Group 1 と Group 2 にも差があるように見えてしまう。

output_9_0.png

 エラーバーは「平均値 ± 標準誤差」ではなく「平均値 ± $k$×標準誤差」とするほうがよい(?)。
 $k$ を自由度 $n-1$ の $t$ 分布の上側確率が 0.025 となるような値とすれば,平均値 ± $k$×標準誤差」は 95% 信頼区間を表す($k$ はサンプルサイズにもよるが,ほぼ 2 としてもよい)。
 今度は,fig. 5 では,Group 2 と Group 3 にも差がないように見えてしまう。
 信頼区間が重なっていても,平均値には有意な差がある場合がある。

output_11_0.png

 根本的に,fig. 2, fig. 4, fig. 5 は,平均値を表す棒が不要である。棒グラフとは,表現する変数の量(大きさ)を棒の高さで表すものである。1個のデータ(平均値)の大きさを表すものではない。
 描くとすれば,fig. 7 のようなものになるだろう。しかし,このグラフは描くに値しないものであることがより明白になる。スカスカなのである。

output_13_0.png

 どうせ描くなら,fig. 8 のように,ゴテゴテといろいろな情報を含む図を描くか(ここでは,多重比較の問題点は考慮しない)。

output_15_0.png

 結局の所,エラーバー付きの平均値のグラフは,そのグラフを見る人にとってはほとんど意味がない,場合によっては誤解を与えるものであるということがわかる。広いスペースをとって,表現しているのは平均値と標準偏差(標準誤差)だけである。図で表す意味がないならば,表で示したほうがましである。

1
0
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
1
0