はじめに
- 統計ソフトウェアRにおけるのデータ操作コマンドのメモです。
動作環境
- Windows10 64bit
- R (バージョン 4.0.5)
- RStudio (バージョン 2022.12.0)
データ確認系
- データの型を確認する
R
> data <- 1
> class(data)
[1] "numeric"
- データの次元(構造)を確認する
R
> data <- matrix(1:15, nrow = 5)
> dim(data)
[1] 5 3
- データの先頭(デフォルトでは先頭の6行)を確認する
R
> data <- matrix(1:20, ncol = 2)
> head(data)
[,1] [,2]
[1,] 1 11
[2,] 2 12
[3,] 3 13
[4,] 4 14
[5,] 5 15
[6,] 6 16
- データの概要(各ベクトルの型など)を確認する
R
> data <- data.frame(x=c(1:10), y=letters[1:10])
> str(data)
'data.frame': 10 obs. of 2 variables:
$ x: int 1 2 3 4 5 6 7 8 9 10
$ y: chr "a" "b" "c" "d" ...
- データをRStudioのSourceペインに表示する
R
> view(data)
データ操作系
便利関数
-
unique()
:ベクトルの中から要素のかぶるものを除いて抽出します。
データフレームから要因の水準を抜き出したいときに便利
文字列ベクトルを整数ベクトルへ変換
文字列ベクトルをfactor
にしてから整数に変換します。
整数でしか受けつけない別のコマンドに渡す際に便利
整数の連番は文字列に対して昇順で割り当てられます。
R
> c("A","C","B","A") %>% as.factor() %>% as.integer()
[1] 1 3 2 1
データ生成系
生成する乱数を固定
乱数の生成に再現性を持たせたい場合には必ず使います。
R
set.seed(123)
値の総当たり表の作成
引数にした変数同士の組み合わせの総当たりを表で出力します
モデルパラメーターのセットを模擬的に作る際に便利です
R
> df <- expand.grid(a=c(100,200), b=c(3,4), c=c(50,60))
> df
a b c
1 100 3 50
2 200 3 50
3 100 4 50
4 200 4 50
5 100 3 60
6 200 3 60
7 100 4 60
8 200 4 60
おわりに
Rで個人的によく使うコマンドを載せました。
参考文献
特になし