RefSeqIDをTAIRIDに変換する方法をメモしておきます。
プログラミング言語にはRを用いました。
実行環境:MacBook Air M1, 2020
RとRStudioのインストール
下記のURLから、RとRStudioをインストールします。
https://posit.co/download/rstudio-desktop/
インストール方法は下記のURLの記事にわかりやすく書かれています。
https://qiita.com/azzeten/items/1031c788ed093d3b3946
Bioconductorとorg.At.tair.dbのインストール
Bioconductorとorg.At.tair.dbをインストールします。
https://www.bioconductor.org/install/
https://bi.biopapyrus.jp/rnaseq/annotation/org.at.tair.db.html
RStudioを起動し、以下のコードを実行します。
if (!require("BiocManager", quietly = TRUE))
install.packages("BiocManager")
BiocManager::install(version = "3.18")
BiocManager::install("org.At.tair.db")
RefSeqIDからTAIRIDへの変換
RefSeqIDが書かれたinput.txtを~/refseq2tairディレクトリ(任意のディレクトリ)に配置します。
RefSeq
NP_171609.1
NP_001030923.1
NP_001322175.1
NP_171612.1
NP_001322481.1
RStudioを起動し、下記のコードを実行します。
# refseqIDをtairIDに変換
setwd("~/refseq2tair") # 任意のディレクトリに移動
getwd()
library(org.At.tair.db)
table = read.table("input.txt", header = TRUE, sep="\t")
library(stringr)
table$refseq <- str_sub(table$RefSeq, end = -3)
ID <- as.list(org.At.tairREFSEQ2TAIR)
table$tair <- ID[table$refseq]
sapply(table, class)
table <- dplyr::mutate(table, tair = as.character(tair)) # list型をcharacter型に変換
sapply(table, class)
write.table(table, file = "output.txt", col.names = T, row.names = F, sep="\t", quote = F)
これにより、~/refseq2tairディレクトリにoutput.txtが出力されます。
RefSeq refseq tair
NP_171609.1 NP_171609 AT1G01010
NP_001030923.1 NP_001030923 AT1G01020
NP_001322175.1 NP_001322175 AT1G01030
NP_171612.1 NP_171612 AT1G01040
NP_001322481.1 NP_001322481 AT1G01050
RefSeqIDをTAIRIDにまとめて変換することができました。