はじめに
毎週1本様々な技術に関する記事を投稿しています。
もし興味のある方は下のリンクから他の記事も見ていただければ幸いです。
@7_inai_
平均値/中央値/最頻値
統計学では、データを要約するときの代表的な指標として「平均値」「中央値」「最頻値」という3つの値があります。
最もよく使用される値が平均値ですが、中央値、最頻値との違いはなんでしょうか?
これら3つの値の特徴と使用方法の違いについて解説します。
■平均値(Mean)
平均値は、データセットの値の合計をデータの数で割った値
です。
平均値はデータ全体の中心的な傾向を示す指標として利用されます。
[例]
データセット:10,20,30,40,50,50,60,60,60
平均値:合計値/データの数 -> 380/9 = 42.2
■中央値(Median)
中央値は、データセットを小さい順に並べた際に真ん中に位置する値
です。
データ数が奇数の場合は、中央にある値が中央値になります。偶数の場合は、中央に近い2つの値の平均が中央値となります。中央値は外れ値の影響を受けにくいため、データの中心的な傾向を示す際に有用です。
[例]
データセット:10,20,30,40,50,50,60,60,60
中央値:50(9個あるデータセットの内、5番目にあるデータ)
■最頻値(Mode)
最頻値は、データセット内で最も頻繁に現れる値
です。データの中で最も多く出現する値が最頻値となります。最頻値は、データセット内の特定の傾向や傾向の強さを把握するための重要な指標です
[例]
データセット:10,20,30,40,50,50,60,60,60
最頻値:60(60が3回で最多)
それぞれの使い所
■平均値
データの 全体的な傾向を把握 するのに有用です。そのデータセットの典型的な値を知ることができますが、外れ値(極端に大小に偏った値)の値を受けやすい という欠点があります。
■中央値
外れ値の影響を受けづらいため、データに外れ値が含まれている場合やデータが歪んでいる場合に最適 です。
■最頻値
データセット内で最も頻繁に現れる値を知ることができます。そのため、アンケートの回答の集計等に有用です。また、データが複数のピークを持っている場合にも、それぞれのピークの位置を把握 するために最頻値を利用することができます。
終わりに
同じデータセットでも、どの代表値を使用するかでデータから得た結論が変わってきます。そのため、これらの指標を適切に選択し、データの特性や解析の目的に応じて、より正確な洞察を得ることが非常に重要です。
最後までお付き合いくださりありがとうございました。