#はじめに
統計学の勉強をしようとR言語を入れたけど何がどうなっているかわからない。
Rには分析や検証に使える様々なデータセットが用意されている。
それらのデータセットはいったいどのような情報を持っているのか、それらを調べる方法をまとめていく。
chickwtsというデータセットを使用する。
ひよこ(?)の「餌の種類」と「体重」の情報が存在するデータセットである。
#str()で内容を表示
$ str(chickwts)
'data.frame': 71 obs. of 2 variables:
$ weight: num 179 160 136 227 217 168 108 124 143 140 ...
$ feed : Factor w/ 6 levels "casein","horsebean",..: 2 2 2 2 2 2 2 2 2 2 ...
このデータセットには71のデータがあり(71匹いる)、それぞれにweightとfeedの2つの変数が存在することが読み取れる。
'data.frame'はchickwtsのクラスであり、numとFactorは変数の型のようだ。
そして末尾の「2 2 2 2 2 ...」が何なのかわからない。
また、$ View(chickwts) でExcelのような表を表示させることができる。
#table()で集計
$ table(chickwts)
feed
weight casein horsebean linseed meatmeal soybean sunflower
108 0 1 0 0 0 0
124 0 1 0 0 0 0
136 0 1 0 0 0 0
140 0 1 0 0 0 0
141 0 0 1 0 0 0
143 0 1 0 0 0 0
148 0 0 1 0 0 0
153 0 0 0 1 0 0
158 0 0 0 0 1 0
160 0 1 0 0 0 0
168 0 1 0 0 0 0
169 0 0 1 0 0 0
171 0 0 0 0 1 0
179 0 1 0 0 0 0
181 0 0 1 0 0 0
193 0 0 0 0 1 0
199 0 0 0 0 1 0
(((以下略)))
このように表を出力することが可能。また、属性ごとに集計することもできる。
$ table(chickwts$feed)
casein horsebean linseed meatmeal soybean sunflower
12 10 12 11 14 12
feedの内容ごとにカウントすることができた。