統計検定の3級と4級を2025年の4月中に受かろうと思っているYumaです。
そのための備忘録として学んだことを書いていこうと思います。
勉強するのに用いるテキストとしては、下記の3冊を使います。
その時に、勉強したものや学習の過程で作成したもので、
グラフなどを作ることができると思うので、Pythonでグラフを作り、その備忘録としていきたいと思います。
勉強したことを書いていくので、
わからないところとかがありましたら、質問していただけるとうれしいです。
度数分布表とヒストグラム
度数分布表とは?
度数分布表は、データを一定の区間(階級)に分類し、
各階級に含まれるデータの数(度数)を集計した表です。
この表をもとに、ヒストグラムを作成することができます。
ヒストグラムとは?
ヒストグラムとは、度数分布表を視覚的に表現した「棒グラフ」のことです。
ヒストグラムの例としては、厚生労働省の出している所得の分布状況などがあります。
このヒストグラムでは、年収が100万円単位で区切られており、これが度数分布表における各階級に相当します。
各階級の代表値として、区間の中央値(階級値)を用います。
度数は、各階級に属するデータの数を示し、ヒストグラムでは各棒の高さとして表現されます。
相対度数は、各階級の度数を全体のデータ数で割った割合であり、上記の図では縦軸がパーセンテージ(相対度数×100)で表示されています。
累積度数は、各階級までの度数を順次加算した値で、最終的には全データ数と一致するはずです。
もし累積度数の最終値が全データ数と一致しない場合は、計算に誤りがあるため、再度確認してください。
平均値と度数分布表の関係
平均値は、度数分布表の階級値×相対度数で平均値が出る。
度数分布表を作ったとしても、平均値と言う統計量には大きな影響を与えないこと示している。
ヒストグラムが左右対象とした場合、平均値は対象軸の位置になる。
平均の種類
平均の取り方は一つではない。
4つの平均の取り方があり、用途によって使い分ける必要がある
3000円と10000万円を持っている時についてそれぞれ平均を出します。
算術平均 (Arithmetic Mean)
算術平均は、全ての値の合計をデータ数で割った値です。
「合計の意味」を重視する場合に適しています。
計算例:
(3000+10000)/2
相乗平均、幾何平均
相乗平均は、各値の積のn乗根(nはデータ数)を求める方法です。
成長率や比率など、掛け算的な性質を持つデータの代表値として利用されます。
2乗平均
2乗平均は、各値を二乗してその平均の平方根をとる方法です。
データのばらつきを評価する際に有用です。
調和平均
調和平均は、各値の逆数の算術平均の逆数として求められます。
速度や単位時間あたりの作業量など、比率を扱う場合に効果的です。