4
4

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?

R言語 - データフレームの項目を、相関係数が高い組み合わせ順に並び変える

Last updated at Posted at 2023-11-29

結論を先に

以下のコードで、 original_data を対象のデータフレームに書きかえれば動くはず。

データフレームを、相関関係の強い項目の組み合わせ順に並べる

# ライブラリの読み込み
library(tidyverse)

# ここの original_data をほしいデータに変える
data <- original_data

# もとのデータに数字以外の項目が混ざっている場合は以下を実施
# data <- data[, !(names(data) %in% c("不要な項目のカラム名1","不要な項目のカラム名2"))]

# 項目の組み合わせを列挙
col_names = t(combn(names(data),2))

# tibble化
tib_cols <- tibble(col_names)

# 列の追加と初期化
tib_cols$Cor.Sign <- rep(0, times=nrow(tib_cols))
tib_cols$Cor.Abs <- rep(0, times=nrow(tib_cols))

# 相関係数、符号、絶対値の計算

for (i in 1:nrow(col_names)){

  # cor()が名前付きのデータフレームを返してくる場合は、
  # )の直後に[1,1]をつけて素の値を取り出す
  x <- cor(data[, col_names[i,1]], data[, col_names[i,2]], use="complete.obs") #[1,1]
  
  tib_cols$Cor.Sign[i] <- sign(x)
  tib_cols$Cor.Abs[i] <- abs(x)

}

# 絶対値の降順にソート
tib_cols %>% arrange(-Cor.Abs)

original_datamtcars (Rの標準データセットで、70年代の車のスピードや燃費に関するデータが入っている) を入れて実行すると、こんな感じで出てきます。

image.png

もっといいやりかたをご存じの方は、ぜひコメント欄でご教示ください・・・!

以下、細かい話です。

問題意識

R言語でデータを解析する際に、「与えられたデータの中で、相関関係が強い組み合わせは何か?」は知りたいことのひとつと思う。

実務上は、ggpairsなどを使って相関の強い項目を目視することが多いそうだ。

このように。
image.png

しかし項目数が増えてくるにつれ、「どの項目が最も相関が強いのか」を目視で確認するのは大変になってくる。

この中でどれが一番? うーん・・・
image.png

相関関係を行列にして、ヒートマップを作るという手もあるそうだが、やはり「何が一番か」を見るのはつらい。

相関行列によるヒートマップの作成
# 相関行列の計算
cor_matrix <- cor(mtcars, use = "complete.obs") 
# 相関行列を表示
print(cor_matrix)
heatmap(cor_matrix, 
        col = colorRampPalette(c("blue", "white", "red"))(20),
        Colv = NA, Rowv = NA,
        main = "Correlation Heatmap",
        xlab = "Variables", ylab = "Variables",
        margins = c(5, 5),
        cexRow = 1.0, cexCol = 1.0,
        symm = TRUE  # 行列が対称であることを指定

この中でどれが一番だなんて・・・?
image.png

ということで、様々な値の入ったデータセットの中で、その中の2つの項目について、相関関係の高い組み合わせ順に並べ替える処理をなるべく共通化したい!

…と思ってやってみたところ、意外と躓くところが多かったので、後々のためにメモしました。

方針

以下の方針でやりました。

  • まず、対象となるデータセットから2つの項目名を取り出した組み合わせを列挙したデータフレームを作る
  • 上記のデータフレームに、その2つの項目の相関係数の符号と絶対値をそれぞれ格納する列を追加
  • 上記のデータフレームを、相関係数の絶対値で降順にソート

手順

準備

tidyverseを使います。

tidyverseの読み込み
library(tidyverse)

後々の処理がコードサンプルどおりに動くように、代入しておきます。

代入(あとのコードと整合性をとるため)
data <- mtcars

数字以外の項目の除外

相関を出していく際に、数字以外の項目(文字列など)が入っているとエラーになるります。

なので、数字以外の項目が入っている場合は、その列をここで除外しておきます。

数字以外の項目を除外
data <- data[, !(names(data) %in% c("不要な項目のカラム名1","不要な項目のカラム名2"))]

今回例に使う mtcars のデータセットは、全項目数字なので、上記はやらなくて大丈夫です。

2つの項目名を取り出した組み合わせを列挙したデータフレームを作る

2つの項目名の組み合わせを列挙
col_names = t(combn(names(data),2))
  • names(df) : データフレームの列名をベクトルにして返す
  • cobmn(x,y)が、xの中からy個の要素を取り出して、組み合わせを列挙する(1-2と2-1のように、順番は違っても要素が同じという意味での重複も排除)
  • t()は行列の入れ替え

colnames は関数名なので、代入先の変数名には col_names を使う

col_names を表示すると、以下のようになる。

image.png

image.png

符号と絶対値を追加する

上記で作った col_names に、符号と絶対値の列を追加します。

tibble化

あとあと列を追加する用に、col_names を tibble 化した tib_cols を作っておきます。

tibble化
tib_cols <- tibble(col_names)

列の追加のために本当に tibble 化が必要だったのかは自信がない。

符号と絶対値の列を追加

まず、符号と絶対値を格納する用の列を作り、全行をゼロ埋めします。

符号と絶対値を格納する列の追加(初期化)
tib_cols$Cor.Sign <- rep(0, times=nrow(tib_cols))
tib_cols$Cor.Abs <- rep(0, times=nrow(tib_cols))

この段階で、tib_cols の中身を見るとこんな感じになります。

image.png

こんなCOBOLみたいな初期化が本当に必要だったのかは自信がない。
でもやらないとうまくいかなかったので仕方なくやりました。。。

そして、符号と絶対値を設定します。

符号と絶対値を設定

for (i in 1:nrow(col_names)){

  x <- cor(data[, col_names[i,1]], data[, col_names[i,2]], use="complete.obs") #[1,1]

  tib_cols$Cor.Sign[i] <- sign(x)
  tib_cols$Cor.Abs[i] <- abs(x)

}
  • cor(a, b) : ベクトルaとベクトルbの相関係数を計算する。
  • use="complete.obs" : cor(a,b) は、デフォルトでは a か b のどちらか一方にでも欠損値があると NA を返してくる。このオプションを指定することで、欠損地があっても相関係数を計算してくれる。
  • cor()のあとの #[1,1] : cor(a, b) は、名前つきのデータフレームを返してくることがある。値だけを取り出したい場合は、コメントを外して[1,1]を指定する。

この段階で、tib_cols の中身はこんな感じになっています。

image.png

ソート

あとは絶対値で降順にソートすれば、相関関係の強い項目が見られる!

降順にソート
tib_cols %>% arrange(-Cor.Abs)
  • tibble %>% arrange(列名) : 列名で昇順にソート
  • tibble %>% arrange(-列名) : 列名で降順にソート

完成!

・・・ということで、できたーん!
相関関係の強い項目の組み合わせ Top10 はこちらです。

image.png

やり残したこと

相関係数を出す際に、欠損値を無視するオプションを指定しているが、項目の組み合わせによっては、欠損値が多すぎることによって順位がブレてくるものがあるかもしれない。

それぞれの項目の欠損値の数や、欠損の割合も計算して tib_cols に入れると、信ぴょう性の判断がつきやすいかもしれない。

…けどそれはのちほど。(すぐできる気もするが今日は寝ます)

以上!

メモは以上です。

筆者自身、Rもデータ分析も初心者🔰ですので、もっといいやりかたをご存じの方はぜひコメントでご教示ください・・・!

4
4
4

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
4
4

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?