はじめに
今回は得られたデータを可視化して、ざっくりとした分布を把握するところについて説明します。
目次
- 量的変数
- 質的変数
- 統計量
- 代表値
- 分散と標準偏差
- 外れ値
1. 量的変数
数値で表される変数のことを言います。
つまり数値や量で測ることのできる変数です。
例えば、身長は「150cm」のように数値で表現できるため量的変数になります。
他には、体重・テストの点数・年齢・年収などがあります。
量的変数には2つの種類があります。
離散型量的変数
取りうる値が飛び飛びである変数を離散型量的変数という。
例えば、サイコロは取りうる値が1から6までの整数であるため離散型に分類されます。
連続型量的変数
身長173.4cmや体重65.8kgといった連続値で表される変数を連続型量的変数という。
飛び飛びの値ではなく精度の良い測定法を用いれば原理的にはいくらでも小数点以下に値が続く変数を指します。
2. 質的変数
変数が数値ではなくカテゴリで表される変数のことを言います。
つまり数値や量で測ることができない変数となります。
例えば、性別(1=男性、2=女性)やアンケート調査(5=大変満足、4=満足、3=普通、2=ひどい、1=大変ひどい)などです。
他にはコインの表/裏、ラーメンの味(醤油/塩/味噌)などもあります。
質的変数は別名カテゴリ変数とも呼ばれます。
3. 統計量
得られたデータに対して何かしらの計算を実行して得られる値を統計量といいます。
データからいくつかの統計量を計算し要約することで、データがどのように分布しているかを定量的に特徴づけることができます。
このようにデータそのものの性質を記述し、要約するための統計量を記述統計量または要約統計量という。
代表的な記述統計量
・代表値:平均値、中央値、最頻値
・ばらつきを表す値:分散・標準偏差
4. 代表値
平均値、中央値、最頻値はおそらく皆さんご存じだと思いますので簡単な説明のみとさせていただきます。
代表値を用いることで、データがどのあたりを中心に分布しているかの情報を得られます
・平均値:各データの和をサンプルサイズで割った値
母集団の平均を母集団平均、標本の平均を標本平均といいます。
・中央値:データを大きさ順に並べたときに中央に位置する値
・最頻値:データの中で最も頻繁に表れる値
この3つの値が大体同じ値をとるとき、データの分布は左右対称に近い山型となります。
またこの3つの値の内、外れ値の影響を大きく受けるのは平均値となります。
下の図は左右対称の平均0の正規分布となります。図から見てもわかるように、最頻値・中央値も0となります。
5. 分散・標準偏差
分散・標準偏差を用いることで、分布の幅を捉えることができます。
つまり分散とは、各データ値と平均の値がその程度離れているかを評価することでデータのばらつき具合を定量化する統計量。
ばらつきが大きいほど分散の値も大きくなります。
また標準偏差とは分散の平方根をとった値となります。
下記キャプチャは平均0の正規分布の標準偏差を変化させたときの分布を描画したものです。
標準偏差が大きくなるにつれて、分布の幅が大きくなっていることがわかると思います。
6. 外れ値
外れ値に明確な定義はありませんが、データには稀に極端に大きな値や小さな値をとることがある。
平均値から標準偏差2つ分または3つ分離れた数値を外れ値として扱うことがあります。(必ずこうなるとは限らない)
外れ値の中には、本来の値ではなく測定ミスにより発生する可能性がある外れ値もあります。これを異常値といいます。
異常値データが見つかった場合は、本来得られることのなかったデータなので速やかに取り除くようにしましょう。
まとめ
データ分析においてデータを得られたら次の3点を実施してざっくりとした分布の形を視覚化するとよいです。
1.ヒストグラムを作成
2.代表値を求め、どこを中心に分布しているかを判断
3.分布の幅を計算