1次元のデータ
- 1次元データが手に入ったら、「正しく」かつ「効率的に」読む事をしなさい
- 雑に言うと「度数を数えてヒストグラムくらいかけよ。」ということを遠回しに示唆される。
はい、すいません。すぐにRでやってみます
参考データとして宮城県石巻市 保育所の状況の「hoikujo_ichiritu_2014」をcsvにして取り込み
hoikujo <- read.csv("hoikujo_ichiritu_2014.csv")
hoikujo
NO 区分 名称 解説年月 定員 実人数 職員数
1 1 認可保育所 石巻保育所 S28.8 80 73 11
2 2 認可保育所 渡波保育所 S29.8 60 65 7
3 3 認可保育所 鹿妻保育所 S39.4 110 110 12
4 4 認可保育所 蛇田保育所 S41.4 90 92 10
5 5 認可保育所 井内保育所 S40.4 100 83 10
6 6 認可保育所 若草保育所 S47.4 90 103 11
7 7 認可保育所 水押保育所 S48.4 60 59 8
8 8 認可保育所 ふたば保育所 S50.4 110 98 10
9 9 認可保育所 水明保育所 S53.4 60 53 7
10 10 認可保育所 石巻地区仮設保育所 ― 100 44 6
11 11 認可保育所 飯野川保育所 S42.4 50 62 9
12 12 認可保育所 大谷地保育所 S58.4 30 26 4
13 13 認可保育所 二俣保育所 S59.4 30 30 4
14 14 認可保育所 大川保育所 S57.4 30 7 2
15 15 認可保育所 雄勝保育所 S46.4 80 0 0
16 16 認可保育所 前谷地保育所 S29.2 60 65 8
17 17 認可保育所 和渕保育所 S31.7 60 60 8
18 18 認可保育所 鹿又保育所 S38.8 60 66 7
19 19 認可保育所 北村保育所 H2.5 60 45 5
20 20 認可保育所 須江保育所 H3.5 60 54 7
21 21 認可保育所 桃生新田保育所 S40.5 90 109 12
22 22 認可保育所 橋浦保育所 S59.4 60 45 7
23 23 認可保育所 吉浜保育所 S58.4 45 4 3
24 24 認可保育所 相川保育所 H11.4 45 18 3
25 25 認可保育所 牡鹿地区仮設保育所 ― 50 34 6
26 26 へき地保育所 荻浜保育所 S59.4 50 6 2
実人数だけを取り出したい、が、
下記の方法だとデータフレームの一部が取り出されてしまうので。
そのままhist(hoikujo[6])
とかすると「xは数値でなければなりません」というエラーになるので注意。
hoikujo[6]
実人数
1 73
2 65
3 110
4 92
5 83
6 103
7 59
8 98
9 53
10 44
11 62
12 26
13 30
14 7
15 0
16 65
17 60
18 66
19 45
20 54
21 109
22 45
23 4
24 18
25 34
26 6
ヒストグラムを書いてみる
> hoikujo <- read.csv("hoikujo_ichiritu_2014.csv")
> sapply(hoikujo,class)
NO 区分 名称 解説年月 定員 実人数 職員数
"integer" "factor" "factor" "factor" "integer" "integer" "integer"
> hoikujo$実人数
[1] 73 65 110 92 83 103 59 98 53 44 62 26 30 7 0 65 60 66 45 54 109 45 4
[24] 18 34 6
> hist(hoikujo$実人数)
日本語が化けてますが、一応かけました。
この図を見る限りでは、40人から60人の園児が在籍する保育園が多いという結果がさくっと見えました。
なるほど。これはデータだけ眺めてても分かりませんな。
最後に私からも言わせてもらおう。
「度数を数えてヒストグラムくらいかけよ。」
・・・はい、すみません。
追記
r-de-rさんから教えてもらったコマンドを実施。
> hist(hoikujo[,6])
※画像は省略しますが、あっさりヒストグラムが描画されました。
なんでだ?という事で、classを調べてみると、
hoikujo[6]とした場合はデータフレームの一部として取り出しされる模様
> sapply(hoikujo[6],class)
実人数
"integer"
hoikujo[,6]とした場合はデータの一部をベクトルとして取得できる模様。
> sapply(hoikujo[,6],class)
[1] "integer" "integer" "integer" "integer" "integer" "integer" "integer" "integer" "integer"
[10] "integer" "integer" "integer" "integer" "integer" "integer" "integer" "integer" "integer"
[19] "integer" "integer" "integer" "integer" "integer" "integer" "integer" "integer"
なるほどなぁ・・・。
コメントありがとうございました!
今日使ったRコマンド
データフレームの一部を抜き出したい
[data_frame_name]$[カラム名]
または
[data_frame_name][,n]
[data_frame_name][n,]
hoikujo <- read.csv("hoikujo_ichiritu_2014.csv")
hoikujo$実人数
[1] 73 65 110 92 83 103 59 98 53 44 62 26 30 7 0 65 60 66 45 54 109 45 4
[24] 18 34 6
データフレームの型を調べたい
sapply([data_frame_name],class)
hoikujo <- read.csv("hoikujo_ichiritu_2014.csv")
sapply(hoikujo,class)
NO 区分 名称 解説年月 定員 実人数 職員数
"integer" "factor" "factor" "factor" "integer" "integer" "integer"
ヒストグラムを書きたい
hist([数値ベクトル])
hist(hoikujo$実人数)
※画像は省略