はじめに
前回Rで基礎分析結果をCSV出力②量的変数編にて、量的変数について扱った。今回は質的変数を扱う。
度数分布表をCSV出力
度数分布表とそれらの割合を求めて、CSVで出力する。各項目に関して求めた度数分布表のサイズが異なり、結合してまとめて出力するのは難しかったため、各項目ごとでCSV出力する。出力時のファイル名に列名をそのままつけたかったので、 colname を抽出しておく。
freq.R
colname.1 <- h.1$ROWNAMES
colname.2 <- h.2$ROWNAMES
for (i in 1:ncol(d.2)) {
filename <- paste(colname.2[i], ".csv", sep="")
tmp <- table(d.2[, i])
tmp <- data.frame(tmp)
tmp$Percentage <- round(tmp$Freq / sum(tmp$Freq), 3)
write.table(x=tmp, file=filename, sep=",", row.names=FALSE)
}
出力結果は以下のようになる。(EDUCATION.csvの場合)
default of credit card clients Data Setを見ると、EDUCATION (1 = graduate school; 2 = university; 3 = high school; 4 = others) となっており、 0 や 6 は割当がない。欠損値自体はないものの、上記のような意味のないデータが入っているため、処理をする必要がある。単純に欠損扱いにすればよいのかな。