Introduction
Rでデータフレームを一瞬で要約してみた.
使用したライブラリはsummarytools
パッケージ内のdfSummary
.
データ準備
今回はボストンデータを使用
library(MASS)
data = Boston
パッケージインストールと呼び出し
install.packages("summarytools")
library(summarytools)
要約結果出力
この一行で要約完了.
RStudioのviewペイン上に結果を出力.
view(dfSummary(data))
出力結果の内容解説
Dimensions
データフレームの行数と列数.
dim(data)
Out:
[1] 506 14
Duplicates
重複の数.
sum(duplicated(data))
Out:
[1] 0
Variable
データフレームの列名とデータ型.
names(data[1])
class(data$crim)
[1] "crim"
[1] "numeric"
Stats/Values
基本的な要約統計量.
- Mean:平均
- sd:標準偏差
- min:最小値
- med:中央値
- max:89
- IQR:四分位範囲
- CV:変動係数
mean(data$crim)
sd(data$crim)
min(data$crim)
median(data$crim)
max(data$crim)
IQR(data$crim)
sd(data$crim)/mean(data$crim)
Out:
[1] 3.613524
[1] 8.601545
[1] 0.00632
[1] 0.25651
[1] 88.9762
[1] 3.595038
[1] 2.380376
Freqs (% of Valid)
ユニーク(重複していない)値の個数.
カテゴリー変数は各カテゴリーの個数と割合.
length(unique(data$crim))
[1] 504
Graph
ヒストグラム.
カテゴリー変数は各カテゴリーの個数の横棒グラフ.
hist(data$crim)
Valid
データ数(欠損値以外).
length(na.omit(data$crim))
Out:
[1] 506
Missing
欠損値(NA)の個数.
sum(is.na(data$crim))
[1] 0
Memo
関数view
はtibble
パッケージにも存在するため,このパッケージを呼び出しているときは,summarytools
のview
であることを明記する必要あり.
summarytools::view(dfSummary(data))
Conclusion
今回はdfSummary
の引数は特に指定せず,すべてデフォルトのまま使用した.デフォルトでも十分だとは思うが,場合によっては変更する必要もあるだろう.いずれ引数を細かく指定した場合の表示についてもまとめようと思う.
Code
# データ準備
library(MASS)
data = Boston
# パッケージインストール
install.packages("summarytools")
library(summarytools)
# 要約結果出力
summarytools::view(dfSummary(data))
# 次元数
dim(data)
# 重複の数
sum(duplicated(data))
# 列名とデータ型
names(data[1])
class(data$crim)
# 要約統計量
mean(data$crim)
sd(data$crim)
min(data$crim)
median(data$crim)
max(data$crim)
IQR(data$crim)
sd(data$crim)/mean(data$crim)
# ユニーク値の個数
length(unique(data$crim))
# ヒストグラム
hist(data$crim)
# データ数
length(na.omit(data$crim))
# 欠損値の個数
sum(is.na(data$crim))