データ分析では「平均値」を確認することが多くありますが、それだけでは本来のデータの姿を見落とすことがあります。
全体像を正しく理解するには、データ点が集まる傾向にある典型的な値を示す「中心傾向の尺度(以下「中心傾向」)」 と、データの広がりを表す「ばらつきの尺度(以下「ばらつき」)」の両軸で捉えることが必要です。本記事では、これら2つの尺度について簡潔に解説します。
1. なぜ「中心傾向」と「ばらつき」をセットで見るべきなのか
データ分析において「中心傾向(平均値、中央値など)」と「ばらつき」をセットで見るべき理由は、データが示す「典型的・代表的な水準」と「データ全体の安定性」を同時に評価するためです。
「中心傾向」だけでは、個々のデータがどのように散らばっているかという分布の形状を捉えることができません。「中心傾向」と「ばらつき」の2つの尺度によってデータの分布の特徴をより多面的な視点から捉えやすくなります。
・中心傾向(平均・中央値など) データ全体がどの数値付近に位置しているか、その「集まっている場所」を示します。データの全体的な水準をひとつの数値で代表させる際に使用します。
・ばらつき(標準偏差など) 個々のデータが中心の周りにどの程度広がっているかを示します。この「広がり」を確認することで、中心付近にどの程度データが集まっているかを知ることができます。
たとえるならば、中心傾向はあくまでデータ全体を幾つかの視点から捉えた時のそれぞれの「重心」を示す指標であり、個別のデータの振れ幅や多様性までは表せません。
計算された平均値が正しくても、ばらつきを無視すると、実態とはかけ離れた解釈をしてしまう恐れがあります。そのため、位置と広がりの両面からデータを読むことが不可欠なのです。
2. 中心傾向:データが集まる「典型的な値」を知る
中心傾向とは、データセットにおける「典型的な値」や「中心となる位置」を把握するための概念です。膨大なデータをひとつの代表値に要約することで、全体の傾向を掴んだり、異なるデータセット同士を比較したりすることが可能になります。
主な指標として、以下の3つが用いられます。
1)平均値
データ全体のバランス点。すべての数値を合計し、データの個数で割った値(算術平均)。
• 長所:全データを反映するため、全体の傾向を把握しやすい。
• 短所:外れ値(極端に大きい/小さい値)の影響を受けやすい。
2)中央値
外れ値に強い指標。データを小さい順に並べたとき、中央に位置する値。
• 長所:外れ値の影響をほとんど受けない。所得分布や不動産価格のように、一部の極端な値によって分布が偏っているデータにおいて、実感に近い代表値を示すのに適している。
3)最頻値
最もよく現れる値。データの中で最も頻繁に出現する値。
• 活用例:売れ筋の商品サイズ、アンケートで最も多い回答、血液型などのカテゴリーデータの分析に用いられる。
どの指標を選ぶべきかは、データの形によります。データが左右対称のきれいな山型を描いているなら「平均値」を使うのが適しています。
一方で、極端な値が含まれていて分布が歪んでいる場合は、平均値だと実態からズレてしまうため、「中央値」の方が信頼できます。
また、単純に「一番多いのはどれか」を知りたいときは、「最頻値」を採用するのが適切です。
3. ばらつき:個々のデータ値の差異や分布を理解するための「広がり」
前述の中心傾向がデータの「中心位置(代表値)」を特定するのに対し、ばらつきはその「広がりの程度」を定量化するものです。この2つの視点を併用することで、個々のデータが平均からどの程度離れているかという個体差や分布の程度を評価できます。
1)標準偏差
各データがどれだけ離れているかを表す指標。
• 標準偏差が小さい: データが平均値の周辺に密集している(平均に近い値が多い)。
• 標準偏差が大きい: データが広範囲に散らばっている(ばらつきが大きい)。
たとえば、製造品質データなどでは、標準偏差が大きい状態を「工程が不安定」だと判断する指標とされることがあります。
2)正規分布と経験則(68–95–99.7則)
データによっては、ヒストグラムを描くと左右対称のベル型(正規分布)に近い形状になることがあります(実務上のデータが必ずしもこの分布に従うわけではありません)。 そして、正規分布には、標準偏差を用いた次のような経験則があります。
【データが正規分布に従うと仮定できる場合】
• 平均値±1標準偏差の範囲:全データの約68% が含まれる。
• 平均値±2標準偏差の範囲:全データの約95% が含まれる
• 平均値±3標準偏差の範囲:全データの約99.7% が含まれる
この法則を知っていれば、対象のデータが正規分布に近いと仮定できる場合、平均値から大きく離れた値が出た際に、それが「めったに起こらない異常値である」と判断する目安になります。
3)Zスコア:異なる基準のデータを同じ尺度で比較する
Zスコアは、あるデータが平均値から見て「標準偏差の何個分、離れているか」を示す指標です。平均値からの距離を標準偏差で割ることで、単位(点数、cm、kgなど)が異なるデータでも共通の尺度で比較できるようになります。
【活用例】
• 複数の学校におけるテストの点数
• 異なるスポーツの選手成績
• 製造ラインの部品の長さや重さのデータ
Zスコアについての詳細はこちらの記事で解説しています:
【ざっくり理解】 「Zスコア」をわかりやすく解説
https://qiita.com/JMP_Japan/items/514c72dc47d226816803
まとめ:データを正しく読むには
データ分析の要諦は、膨大な数字の集まりを「意味ある情報」として要約し、意思決定の拠り所にすることにあります。本記事で解説した「中心傾向」と「ばらつき」は、その情報の質を決定づける表裏一体の指標です。
-
中心傾向(平均・中央値・最頻値): データセットがどの数値付近に位置しているかという「全体的な水準」を特定します。ただし、分布の歪みや外れ値の有無によって適切な指標を選択しなければ、代表値としての機能が損なわれる点に注意が必要です。
-
ばらつき(標準偏差): データの「広がりの程度」を定量化します。これは、特定した中心傾向(代表値)がデータセットの実態をどの程度正確に反映できているか、あるいは個々のデータがどれほど安定しているかを評価するための不可欠な尺度です。
単一の指標に依存するのではなく、データの「位置(水準)」と「広がり(安定性)」の両軸からアプローチすることで、初めてデータ全体の構造を正しく把握できます。分布の形状やばらつきの大きさを加味した多角的な視点を持つことが、情報の誤認を防ぎ、より確かな判断を下すための鍵となるはずです。
プログラミング不要の統計ソフトJMP。トライアル版で操作感をぜひ体験してみてください。
30日間全機能無料!JMPトライアル版(自動課金なし)。
https://www.jmp.com/ja_jp/download-jmp-free-trial.html?utm_campaign=bl&utm_source=blog&utm_medium=JMPblog
統計や探索的データ分析についてより深く学びたい方は、JMP公式の学習ポータルも参考になります。
Statistics Knowledge Portal
https://www.jmp.com/ja/statistics-knowledge-portal/measures-of-central-tendency-and-variability?utm_campaign=bl&utm_source=JMPblog&utm_medium=social
