LoginSignup
0
0

RefSeq(遺伝子発現データベース)IDからTAIR(シロイヌナズナ情報リソース)IDへの変換

Posted at

RefSeqIDをTAIRIDに変換する方法をメモしておきます。
プログラミング言語にはRを用いました。
実行環境:MacBook Air M1, 2020

RとRStudioのインストール

下記のURLから、RとRStudioをインストールします。
https://posit.co/download/rstudio-desktop/
インストール方法は下記のURLの記事にわかりやすく書かれています。
https://qiita.com/azzeten/items/1031c788ed093d3b3946

Bioconductorとorg.At.tair.dbのインストール

Bioconductorとorg.At.tair.dbをインストールします。
https://www.bioconductor.org/install/
https://bi.biopapyrus.jp/rnaseq/annotation/org.at.tair.db.html
RStudioを起動し、以下のコードを実行します。

if (!require("BiocManager", quietly = TRUE))
    install.packages("BiocManager")
BiocManager::install(version = "3.18")

BiocManager::install("org.At.tair.db")

RefSeqIDからTAIRIDへの変換

RefSeqIDが書かれたinput.txtを~/refseq2tairディレクトリ(任意のディレクトリ)に配置します。

input.txt
RefSeq
NP_171609.1
NP_001030923.1
NP_001322175.1
NP_171612.1
NP_001322481.1

RStudioを起動し、下記のコードを実行します。

# refseqIDをtairIDに変換
setwd("~/refseq2tair") # 任意のディレクトリに移動
getwd()

library(org.At.tair.db)

table = read.table("input.txt", header = TRUE, sep="\t")
library(stringr)
table$refseq <- str_sub(table$RefSeq, end = -3)

ID <- as.list(org.At.tairREFSEQ2TAIR)
table$tair <- ID[table$refseq]
sapply(table, class)
table <- dplyr::mutate(table, tair = as.character(tair)) # list型をcharacter型に変換
sapply(table, class)

write.table(table, file = "output.txt", col.names = T, row.names = F, sep="\t", quote = F)

これにより、~/refseq2tairディレクトリにoutput.txtが出力されます。

output.txt
RefSeq	refseq	tair
NP_171609.1	NP_171609	AT1G01010
NP_001030923.1	NP_001030923	AT1G01020
NP_001322175.1	NP_001322175	AT1G01030
NP_171612.1	NP_171612	AT1G01040
NP_001322481.1	NP_001322481	AT1G01050

RefSeqIDをTAIRIDにまとめて変換することができました。

0
0
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
0
0