はじめに
統計検定2級の学習を進めていることもあり、アウトプットも兼ねて学習事項をまとめることにしました。
単元ごとに分けて記述していきます。
📊 質的変数・量的変数と対応するグラフ
■ 質的変数(カテゴリ変数)
数値ではなく、分類や属性で表される変数。
以下の2つの尺度がある:
-
名義尺度(Nominal Scale)
- 分類のみに意味があり、順序は存在しない
- 例:性別(男・女)、血液型、居住地、職業
-
順序尺度(Ordinal Scale)
- 分類に加え、順序関係に意味がある(が、間隔や比には意味がない)
- 例:満足度(高・中・低)、成績(A・B・C)、サイズ(大・中・小)
➤ よく使用されるグラフ
グラフ名 | 特徴 |
---|---|
円グラフ | カテゴリの構成比(割合)を視覚化。順序尺度の場合は順序に注意する必要がある |
棒グラフ | 各カテゴリの**件数(度数)**を比較。順序尺度では順序を保持、名義尺度では任意順で並べ替え可能 |
帯グラフ(積み上げ棒グラフ) | 円グラフと同様に比率を示すが、複数系列の比較がしやすい |
■ 量的変数(数値変数)
数値で表現され、計算が可能な変数。
以下の2つの尺度がある:
-
間隔尺度(Interval Scale)
- 0が恣意的(例:気温の0℃は「無」の意味ではない)
- 値の差には意味があるが、比(2倍など)は意味がない
- 例:摂氏気温、カレンダーの日付、偏差値
-
比例尺度(Ratio Scale)
- 0が絶対的な基点(例:0kgは「無」である)
- 値の差・比どちらにも意味がある
- 例:身長、体重、売上、所要時間、距離
➤ よく使用されるグラフ
グラフ名 | 特徴 |
---|---|
ヒストグラム | 階級ごとの度数を棒の高さで表す。分布の形(正規分布・歪み)を把握できる |
折れ線グラフ | 時系列データの変化の傾向を表現。前年比較や推移の把握に有効 |
箱ひげ図 | 中央値・四分位範囲・外れ値などをまとめて視覚化。分布のばらつきがわかる |
幹葉図 | データを**幹(上位桁)と葉(下位桁)**に分け、具体的な値と分布を同時に表示 |
散布図 | 2つの量的変数の相関関係を見る。回帰直線や相関係数の可視化にも利用される |
■ 代表値と分布形状の関係(補足)
- 分布が左右対称:平均値 ≒ 中央値 ≒ 最頻値
- 分布が右に歪んでいる:平均値 > 中央値 > 最頻値
- 分布が左に歪んでいる:平均値 < 中央値 < 最頻値
- 歪んだ分布では、中央値の方が代表値として適している場合が多い
- ただし必ずしもこのパターンとは限らないので分布をよくチェックする。