初めまして
こんにちは、この四月から新卒でIT企業に入社した社会人一年目です。
大学では農業経済学を専攻していたので、IT業界は全くの未経験の初心者エンジニア( 園児ニア)です。
とはいえ、大学時代の研究では統計解析を行っていたのでRは使っていました。
ただ、今の会社ではRはほとんど使わないためどんどん知識が抜けてしまっていて これはイカン ということで、拙いですが備忘録としてしばらく書いていきたいと思います。
1.統計学的な基礎
大まかに記述統計学で出てくる数値たち。
- 最大値
- 最小値
- 中央値
- 最頻値
- 分散
- 標準偏差
Rでやってみよう
ではRを用いていろいろ求めていきましょう。
環境はR:4.0.0
Rstudio:1.2.5042
です。
- RとRstudio のダウンロードはこちらから
データの呼び出し
Rのいいところとしてよく挙げられるのがサンプルデータセットが非常に豊富なことです。
ということで今回もその恩恵にあずかりたいと思います。
使うデータセット⇒"iris"
このirisというデータセットはユリアヤメのがくと花びらの長さと幅の観測値が記録されています。
アヤメは一種類50個の観測データが三種類(setosa, versicolor, virginica)で合計150個あります。
とりあえず基本記述統計量を求める
まずはそれぞれの記述統計量を求めていきます。
#基本記述統計量
> summary(iris[1:4])
Sepal.Length Sepal.Width Petal.Length Petal.Width
Min. :4.300 Min. :2.000 Min. :1.000 Min. :0.100
1st Qu.:5.100 1st Qu.:2.800 1st Qu.:1.600 1st Qu.:0.300
Median :5.800 Median :3.000 Median :4.350 Median :1.300
Mean :5.843 Mean :3.057 Mean :3.758 Mean :1.199
3rd Qu.:6.400 3rd Qu.:3.300 3rd Qu.:5.100 3rd Qu.:1.800
Max. :7.900 Max. :4.400 Max. :6.900 Max. :2.500
見方としては、
Min. - 最小値
1st Qu. - 第一四分位数
Median - 中央値
Mean - 平均
3rd Qu. - 第三四分位数
Max. - 最大値
で対応しています。
ただ、これだとユリの種類別で見れないし、分散・標準偏差は求められていません。
もっといいやり方がないかなと思っていたところいいのがありました。
というかモロ被りでした。
参照:Rによるグループ別 基本統計量の出し方
私のがパクリ記事にならないように、何とか差別化を図りたいところです。
ということでこの記事内で出てるdescribeBy()
関数を使ってみましょう。
> describeBy(iris, group = iris$Species)
Descriptive statistics by group
group: setosa
vars n mean sd median trimmed mad min max range skew kurtosis se
Sepal.Length 1 50 5.01 0.35 5.0 5.00 0.30 4.3 5.8 1.5 0.11 -0.45 0.05
Sepal.Width 2 50 3.43 0.38 3.4 3.42 0.37 2.3 4.4 2.1 0.04 0.60 0.05
Petal.Length 3 50 1.46 0.17 1.5 1.46 0.15 1.0 1.9 0.9 0.10 0.65 0.02
Petal.Width 4 50 0.25 0.11 0.2 0.24 0.00 0.1 0.6 0.5 1.18 1.26 0.01
Species* 5 50 1.00 0.00 1.0 1.00 0.00 1.0 1.0 0.0 NaN NaN 0.00
--------------------------------------------------------------------------------
group: versicolor
vars n mean sd median trimmed mad min max range skew kurtosis se
Sepal.Length 1 50 5.94 0.52 5.90 5.94 0.52 4.9 7.0 2.1 0.10 -0.69 0.07
Sepal.Width 2 50 2.77 0.31 2.80 2.78 0.30 2.0 3.4 1.4 -0.34 -0.55 0.04
Petal.Length 3 50 4.26 0.47 4.35 4.29 0.52 3.0 5.1 2.1 -0.57 -0.19 0.07
Petal.Width 4 50 1.33 0.20 1.30 1.32 0.22 1.0 1.8 0.8 -0.03 -0.59 0.03
Species* 5 50 2.00 0.00 2.00 2.00 0.00 2.0 2.0 0.0 NaN NaN 0.00
--------------------------------------------------------------------------------
group: virginica
vars n mean sd median trimmed mad min max range skew kurtosis se
Sepal.Length 1 50 6.59 0.64 6.50 6.57 0.59 4.9 7.9 3.0 0.11 -0.20 0.09
Sepal.Width 2 50 2.97 0.32 3.00 2.96 0.30 2.2 3.8 1.6 0.34 0.38 0.05
Petal.Length 3 50 5.55 0.55 5.55 5.51 0.67 4.5 6.9 2.4 0.52 -0.37 0.08
Petal.Width 4 50 2.03 0.27 2.00 2.03 0.30 1.4 2.5 1.1 -0.12 -0.75 0.04
Species* 5 50 3.00 0.00 3.00 3.00 0.00 3.0 3.0 0.0 NaN NaN 0.00
ああ、見やすい。
こっちの方がいいですね。尖度、歪度、範囲、トリム平均とか色々出してくれていますが、私の勉強不足も込みでうまく説明できないので割愛。
これはアヤメの種類ごとで出してくれているので、もっと種類ごとの差を見るためにまとめてみました。
まずはがくの長さ
Sepal.Length | setosa | versicolor | virginica |
---|---|---|---|
max | 5.8 | 7.0 | 7.9 |
min | 4.3 | 4.9 | 4.9 |
mean | 5.01 | 5.94 | 6.59 |
sd | 0.35 | 0.52 | 0.64 |
この平均と標準偏差から考えてvirginicaが最もがくが長い種でsetosaが最も短い種であると考えることができます。
こんな感じで後の要素もまとめてみましょう。
がくの幅
Sepal.width | setosa | versicolor | virginica |
---|---|---|---|
max | 4.4 | 3.4 | 3.8 |
min | 2.3 | 2.0 | 2.2 |
mean | 3.43 | 2.77 | 2.97 |
sd | 0.38 | 0.31 | 0.32 |
花びらの長さ
Petal.Length | setosa | versicolor | virginica |
---|---|---|---|
max | 1.9 | 5.1 | 6.9 |
min | 1.0 | 3.0 | 4.5 |
mean | 1.46 | 4.26 | 5.55 |
sd | 0.17 | 0.47 | 0.55 |
花びらの幅
Petal.width | setosa | versicolor | virginica |
---|---|---|---|
max | 0.6 | 1.8 | 2.5 |
min | 0.1 | 1.0 | 1.4 |
mean | 0.25 | 1.33 | 2.03 |
sd | 0.11 | 0.20 | 0.27 |
以上をまとめると、setosaががくが比較的大きく花が小さいアヤメで、virginicaががくの大きさに対して花が大きいアヤメでversicolorがその間くらいにいるということがこれらの数字から読み取ることができます。
標準偏差も小さいので、データのブレは少なそうですが、これはあくまで標本調査の値なので、たまたまデカいもしくは小さい個体が混じってしまったから差があるように見えるだけで、実はこの3の間にはがくの大きさや花びらの大きさに差などは存在しないのでは?という疑問を払拭できません。
標本データについては詳しく見ることができるが、母集団や比較した話は展開できない。
この部分が記述統計学の限界となります。
参考文献
dplyrを使いこなす! 基礎編
Rによるグループ別 基本統計量の出し方
全人類がわかるデータサイエンス基礎:記述統計学と推計統計学の違い
親切ガイドで迷わない統計学(高橋麻奈)