More than 5 years have passed since last update.

ケモインフォマティクスで学ぶRのデータ構造

Posted at 2020-02-02

はじめに

ケモインフォマティクスで学ぶRの変数とデータ型に引き続き、リピドミクス（脂質の網羅解析）を題材として、「Rのデータ構造」について解説していきます。
ケモインフォマティクスの実践例を中心に説明していきますので、基本を確認したいという人は以下の記事を読んでからこの記事を読んでみてください。

製薬企業研究者がRのデータ構造についてまとめてみた

ベクトル（vector）

ベクトル（vector）は、同じデータ型の要素をまとめたもので、ベクトル名 <- c(要素1, 要素2, ・・・)で作ることができます。以下の例は文字列のみを格納したベクトルですが、数値や真偽値を入れることもできますし、同じ値の要素を複数入れたりすることもできます。
ベクトルの中の要素は、ベクトル名[インデックス番号]で値を参照することができます。多くのプログラミング言語ではインデックス番号は0から始まりますが、Rでは1から始まることに注意する必要があります。

fatty.acids <- c("FA 16:0", "FA 18:0", "FA 18:1", "FA 18:2", "FA 18:3")

print(fatty.acids[1]) # 1番目の要素にアクセス
print(fatty.acids[-1]) # 最後の要素にアクセス
print(fatty.acids[2:4]) # 2番目から4番目の要素にアクセス

ベクトル名[インデックス番号] <- 値とすることで、指定したインデックス番号の要素の値を更新することができます。指定したインデックス番号の要素が存在しない場合は、新たに要素を追加します。

fatty.acids <- c("FA 16:0", "FA 18:0", "FA 18:1", "FA 18:2", "FA 18:3")

fatty.acids[4] = "FA 18:2 (6Z, 9Z)" # インデックス番号4の要素の値を更新
fatty.acids[6] = "FA 18:4" # インデックス番号6の要素を追加
print(fatty.acids)

ちなみに、(6Z, 9Z)は、二重結合の位置と様式を表しています。6と9はカルボン酸とは反対側の炭素原子から数えて何番目の炭素原子が二重結合を形成しているかを示し、Zというのは二重結合がcisであることを示しています。Eだとtransということになります。

リノール酸の構造など詳しくは、以下のリンク先を見てください。

Linoleic acid (FA 18:2)

二重結合がある場合は、本来であれば上記のように二重結合の位置や結合様式を明示する必要があるわけですが、少し長くなってしまうので、以降では省略することとします。

リストに含まれる要素の数はlengthで確認することができます。

fatty.acids <- c("FA 16:0", "FA 18:0", "FA 18:1", "FA 18:2", "FA 18:3")

print(length(fatty.acids))

連続した整数を要素にもつベクトルを作成する場合はseqを使います。
また、同じ整数を要素にもつベクトルを作成する場合はrepを使います。

Cns <- seq(16, 24, 2)
print(Cns)

Uns <- rep(0, length(Cns))
print(Uns)

saturated.fatty.acids <- paste0("FA ", Cns, ":", Uns)
print(saturated.fatty.acids)

上の例では、飽和脂肪酸の略号を生成しています。
seq(16, 24)とすると、16から24までの連続した整数になります。
脂肪酸の炭素原子数は基本的に偶数なので、偶数のみにするために最後に, 2をつけています。

データフレーム（dataframe）

データフレーム（dataframe）は、表形式のデータを扱いたいときに使えます。

name <- c("palmitic acid", "stearic acid", "oleic acid") # 化合物名
Cn <- c(16, 18, 18) # 脂肪酸の炭素原子数（鎖長）
Un <- c(0, 0, 1) # 脂肪酸の二重結合数（不飽和度）

fatty.acids <- data.frame(Name=name, Length=Cn, Unsaturation=Un) # 作成したベクトルを列として結合してdataframeを作成
print(fatty.acids)

print(fatty.acids[1, 1]) # 行番号、列番号を指定
print(fatty.acids$Name) # 列名を指定
print(fatty.acids$Name[1]) # 列名を指定して行番号を指定

linoleic.acid <- data.frame(Name="linoleic acid", Length=18, Unsaturation=2)
fatty.acids <- rbind(fatty.acids, linoleic.acid) # 新しい行を追加
print(fatty.acids)

fatty.acids$Abbreviation <- paste0("FA ", fatty.acids$Length, ":", fatty.acids$Unsaturation) # 列名を指定して新しい列を追加
print(fatty.acids)

exact.mass <- 12 * fatty.acids$Length + 1.00783 * (2 * fatty.acids$Length - 2 * fatty.acids$Unsaturation) + 15.99491 * 2
fatty.acids <- cbind(fatty.acids, exact.mass) # 新しい列を追加
print(fatty.acids)

fatty.acids$Length <- NULL # 列名を指定して削除
fatty.acids$Unsaturation <- NULL # 列名を指定して削除
print(fatty.acids)

ここでは、脂肪酸の略号や精密質量をまとめた表を作成しました。

まとめ

ここでは、Rのデータ構造について、ケモインフォマティクスで使える実践的な知識を中心に解説しました。
もう一度要点をおさらいしておきましょう。

ベクトルは複数の要素を格納し、データフレームの行や列にすることもできる。
データフレームは表形式のデータを扱うときに使える。

参考資料・リンク

プログラミング言語Rとは？統計分析に強い？

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up