LoginSignup
1
2

More than 3 years have passed since last update.

統計の備忘録 記述統計

Last updated at Posted at 2020-05-03

初めまして

こんにちは、この四月から新卒でIT企業に入社した社会人一年目です。
大学では農業経済学を専攻していたので、IT業界は全くの未経験の初心者エンジニア( 園児ニア)です。
とはいえ、大学時代の研究では統計解析を行っていたのでRは使っていました。
ただ、今の会社ではRはほとんど使わないためどんどん知識が抜けてしまっていて これはイカン ということで、拙いですが備忘録としてしばらく書いていきたいと思います。

1.統計学的な基礎

大まかに記述統計学で出てくる数値たち。

  • 最大値
  • 最小値
  • 中央値
  • 最頻値
  • 分散
  • 標準偏差

Rでやってみよう

ではRを用いていろいろ求めていきましょう。
環境はR:4.0.0
Rstudio:1.2.5042
です。

  • RとRstudio のダウンロードはこちらから

R
Rstudio

データの呼び出し

Rのいいところとしてよく挙げられるのがサンプルデータセットが非常に豊富なことです。
ということで今回もその恩恵にあずかりたいと思います。
使うデータセット⇒"iris"
このirisというデータセットはユリアヤメのがくと花びらの長さと幅の観測値が記録されています。
アヤメは一種類50個の観測データが三種類(setosa, versicolor, virginica)で合計150個あります。

とりあえず基本記述統計量を求める

まずはそれぞれの記述統計量を求めていきます。

 #基本記述統計量
> summary(iris[1:4])
  Sepal.Length    Sepal.Width     Petal.Length    Petal.Width   
 Min.   :4.300   Min.   :2.000   Min.   :1.000   Min.   :0.100  
 1st Qu.:5.100   1st Qu.:2.800   1st Qu.:1.600   1st Qu.:0.300  
 Median :5.800   Median :3.000   Median :4.350   Median :1.300  
 Mean   :5.843   Mean   :3.057   Mean   :3.758   Mean   :1.199  
 3rd Qu.:6.400   3rd Qu.:3.300   3rd Qu.:5.100   3rd Qu.:1.800  
 Max.   :7.900   Max.   :4.400   Max.   :6.900   Max.   :2.500  

見方としては、

Min. - 最小値
1st Qu. - 第一四分位数
Median - 中央値
Mean - 平均
3rd Qu. - 第三四分位数
Max. - 最大値

で対応しています。
ただ、これだとユリの種類別で見れないし、分散・標準偏差は求められていません。
もっといいやり方がないかなと思っていたところいいのがありました。
というかモロ被りでした。
参照:Rによるグループ別 基本統計量の出し方
私のがパクリ記事にならないように、何とか差別化を図りたいところです。
ということでこの記事内で出てるdescribeBy()関数を使ってみましょう。

> describeBy(iris, group = iris$Species)

 Descriptive statistics by group 
group: setosa
             vars  n mean   sd median trimmed  mad min max range skew kurtosis   se
Sepal.Length    1 50 5.01 0.35    5.0    5.00 0.30 4.3 5.8   1.5 0.11    -0.45 0.05
Sepal.Width     2 50 3.43 0.38    3.4    3.42 0.37 2.3 4.4   2.1 0.04     0.60 0.05
Petal.Length    3 50 1.46 0.17    1.5    1.46 0.15 1.0 1.9   0.9 0.10     0.65 0.02
Petal.Width     4 50 0.25 0.11    0.2    0.24 0.00 0.1 0.6   0.5 1.18     1.26 0.01
Species*        5 50 1.00 0.00    1.0    1.00 0.00 1.0 1.0   0.0  NaN      NaN 0.00
-------------------------------------------------------------------------------- 
group: versicolor
             vars  n mean   sd median trimmed  mad min max range  skew kurtosis   se
Sepal.Length    1 50 5.94 0.52   5.90    5.94 0.52 4.9 7.0   2.1  0.10    -0.69 0.07
Sepal.Width     2 50 2.77 0.31   2.80    2.78 0.30 2.0 3.4   1.4 -0.34    -0.55 0.04
Petal.Length    3 50 4.26 0.47   4.35    4.29 0.52 3.0 5.1   2.1 -0.57    -0.19 0.07
Petal.Width     4 50 1.33 0.20   1.30    1.32 0.22 1.0 1.8   0.8 -0.03    -0.59 0.03
Species*        5 50 2.00 0.00   2.00    2.00 0.00 2.0 2.0   0.0   NaN      NaN 0.00
-------------------------------------------------------------------------------- 
group: virginica
             vars  n mean   sd median trimmed  mad min max range  skew kurtosis   se
Sepal.Length    1 50 6.59 0.64   6.50    6.57 0.59 4.9 7.9   3.0  0.11    -0.20 0.09
Sepal.Width     2 50 2.97 0.32   3.00    2.96 0.30 2.2 3.8   1.6  0.34     0.38 0.05
Petal.Length    3 50 5.55 0.55   5.55    5.51 0.67 4.5 6.9   2.4  0.52    -0.37 0.08
Petal.Width     4 50 2.03 0.27   2.00    2.03 0.30 1.4 2.5   1.1 -0.12    -0.75 0.04
Species*        5 50 3.00 0.00   3.00    3.00 0.00 3.0 3.0   0.0   NaN      NaN 0.00

ああ、見やすい。
こっちの方がいいですね。尖度、歪度、範囲、トリム平均とか色々出してくれていますが、私の勉強不足も込みでうまく説明できないので割愛。
これはアヤメの種類ごとで出してくれているので、もっと種類ごとの差を見るためにまとめてみました。
まずはがくの長さ

Sepal.Length setosa versicolor virginica
max 5.8 7.0 7.9
min 4.3 4.9 4.9
mean 5.01 5.94 6.59
sd 0.35 0.52 0.64

この平均と標準偏差から考えてvirginicaが最もがくが長い種でsetosaが最も短い種であると考えることができます。
こんな感じで後の要素もまとめてみましょう。
がくの幅

Sepal.width setosa versicolor virginica
max 4.4 3.4 3.8
min 2.3 2.0 2.2
mean 3.43 2.77 2.97
sd 0.38 0.31 0.32

花びらの長さ

Petal.Length setosa versicolor virginica
max 1.9 5.1 6.9
min 1.0 3.0 4.5
mean 1.46 4.26 5.55
sd 0.17 0.47 0.55

花びらの幅

Petal.width setosa versicolor virginica
max 0.6 1.8 2.5
min 0.1 1.0 1.4
mean 0.25 1.33 2.03
sd 0.11 0.20 0.27

以上をまとめると、setosaががくが比較的大きく花が小さいアヤメで、virginicaががくの大きさに対して花が大きいアヤメでversicolorがその間くらいにいるということがこれらの数字から読み取ることができます。
標準偏差も小さいので、データのブレは少なそうですが、これはあくまで標本調査の値なので、たまたまデカいもしくは小さい個体が混じってしまったから差があるように見えるだけで、実はこの3の間にはがくの大きさや花びらの大きさに差などは存在しないのでは?という疑問を払拭できません。
標本データについては詳しく見ることができるが、母集団や比較した話は展開できない。
この部分が記述統計学の限界となります。

参考文献
dplyrを使いこなす! 基礎編
Rによるグループ別 基本統計量の出し方
全人類がわかるデータサイエンス基礎:記述統計学と推計統計学の違い
親切ガイドで迷わない統計学(高橋麻奈)

1
2
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
1
2