8
10

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?

More than 1 year has passed since last update.

Rのsummarytoolsパッケージ. dfSummary基礎編

Last updated at Posted at 2021-09-10

Introduction

Rでデータフレームを一瞬で要約してみた.
使用したライブラリはsummarytoolsパッケージ内のdfSummary.

データ準備

今回はボストンデータを使用

library(MASS)
data = Boston

パッケージインストールと呼び出し

install.packages("summarytools")
library(summarytools)

要約結果出力

この一行で要約完了.
RStudioのviewペイン上に結果を出力.

view(dfSummary(data))

Out:
キャプチャ.PNG

出力結果の内容解説

Dimensions
データフレームの行数と列数.

dim(data)
Out:
[1] 506  14

Duplicates
重複の数.

sum(duplicated(data))
Out:
[1] 0

Variable
データフレームの列名とデータ型.

names(data[1])
class(data$crim)
[1] "crim"
[1] "numeric"

Stats/Values
基本的な要約統計量.

  • Mean:平均
  • sd:標準偏差
  • min:最小値
  • med:中央値
  • max:89
  • IQR:四分位範囲
  • CV:変動係数
mean(data$crim)
sd(data$crim)
min(data$crim)
median(data$crim)
max(data$crim)
IQR(data$crim)
sd(data$crim)/mean(data$crim)
Out:
[1] 3.613524
[1] 8.601545
[1] 0.00632
[1] 0.25651
[1] 88.9762
[1] 3.595038
[1] 2.380376

Freqs (% of Valid)
ユニーク(重複していない)値の個数.
カテゴリー変数は各カテゴリーの個数と割合.

length(unique(data$crim))
[1] 504

Graph
ヒストグラム.
カテゴリー変数は各カテゴリーの個数の横棒グラフ.

hist(data$crim)

Out:
000002.png

Valid
データ数(欠損値以外).

length(na.omit(data$crim))
Out:
[1] 506

Missing
欠損値(NA)の個数.

sum(is.na(data$crim))
[1] 0

Memo

関数viewtibbleパッケージにも存在するため,このパッケージを呼び出しているときは,summarytoolsviewであることを明記する必要あり.

summarytools::view(dfSummary(data))

Conclusion

今回はdfSummaryの引数は特に指定せず,すべてデフォルトのまま使用した.デフォルトでも十分だとは思うが,場合によっては変更する必要もあるだろう.いずれ引数を細かく指定した場合の表示についてもまとめようと思う.



Code

# データ準備
library(MASS)
data = Boston

# パッケージインストール
install.packages("summarytools")
library(summarytools)

# 要約結果出力
summarytools::view(dfSummary(data))

# 次元数
dim(data)

# 重複の数
sum(duplicated(data))

# 列名とデータ型
names(data[1])
class(data$crim)

# 要約統計量
mean(data$crim)
sd(data$crim)
min(data$crim)
median(data$crim)
max(data$crim)
IQR(data$crim)
sd(data$crim)/mean(data$crim)

# ユニーク値の個数
length(unique(data$crim))

# ヒストグラム
hist(data$crim)

# データ数
length(na.omit(data$crim))

# 欠損値の個数
sum(is.na(data$crim))
8
10
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
8
10

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?