More than 5 years have passed since last update.

Rの演算子 %in%

Last updated at 2019-05-23Posted at 2019-05-23

1.はじめに

Rでデータやファイルを編集・加工してて役立ったので、備忘録も兼ねて投稿。

演算子　%in%　を使ってデータの処理。

A　%in%　B
A に B のデータがあれば TRUE 、なければ FALSE がかえってきます。

! A　%in%　B
逆パターンはこちら
A に B のデータがあれば FALSE 、なければ TRUE がかえってきます。

お手本データを作成。

List1.csv

ID,NAME,Town,Age
1,A,Tokyo,27
2,B,Osaka,30
3,C,Nagoya,35
4,D,Tokyo,26
5,E,Osaka,41

List2.csv

ID,NAME,Town,Age
1,A,Tokyo,27
3,C,Nagoya,35

csvファイルをRで読み込み

List1 <- read.csv('List1.csv', sep=",",header=T)
List2 <- read.csv('List2.csv', sep=",",header=T)

List1 の中に　List2　のデータあるかな？
（答え→　ID　１、３）

List1$ID %in% List2$ID　#IDで検索
[1]  TRUE FALSE  TRUE FALSE FALSE　#１番目３番目がTRUE

重複している行（TRUE）だけのデータフレームを作ってみよう。

List_1_2 <- List1[List1$ID %in% List2$ID,]
List_1_2
ID NAME   Town Age
1  1    A  Tokyo  27
3  3    C Nagoya  35

List1 の中で　List2　のデータがないのはどれ？
（答え→　ID　2、4、5）

! List1$ID %in% List2$ID　#先頭に　！
[1] FALSE  TRUE FALSE  TRUE  TRUE　#１番目３番目がFALSE

重複していない行（TRUE）だけのデータフレームを作ってみよう。

List_1_2 <- List1[! List1$ID %in% List2$ID,]
List_1_2_
  ID NAME  Town Age
2  2    B Osaka  30
4  4    D Tokyo  26
5  5    E Osaka  41

結果データフレームをcsvで出力しましょう。

out.name <- "List_1_2.csv"
write.table(List_1_2,file=out.name,quote=F,sep=",", row.names=F)

ひとりごと
データフレームの扱いは奥が深い。。。