0
0

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?

More than 1 year has passed since last update.

GGGenomeでRefSeq転写産物の3′UTRを検索する

Posted at

目的

  • siRNAやmiRNAがseed matchするような転写産物を検索したい。
    • seed配列に依存的なオフターゲット作用 の評価に。
  • mRNAの全長ではなく 3′UTR の配列だけを検索したい。

※ seedとは、siRNAのガイド鎖(アンチセンス鎖)またはmatureなmiRNAの、5′末端から数えて2〜8番目の7merを中心とする配列。文献により2〜7番目の6mer、2〜9番目の8merなどとされる場合もある。seedと相補的な配列がmRNAの3′UTRに存在すると、そのmRNAの分解や翻訳抑制が起こる場合がある。

方針を検討

  • GGGenome では、RefSeqに収録された全生物種の転写産物 NM_, NR_, XM_, XR_ を検索することができる。ただし最新のRefSeqリリースのみ。
  • RefSeqリリースのキリ番(200, 205, 210, 215, ...)については、ヒトの NM_, NR_ に限定して検索することができる。さらに、RefSeqが更新されてもキリ番リリースは削除されずに残されている。
  • 今回は、ヒトの NM_, NR_ をGGGenomeで検索し、検索結果のなかから3′UTRにヒットしたものを抽出することにする。
    • GGGenomeは検索結果をBED形式で取得できる。3′UTRの範囲を記載したBEDファイルを用意しておき bedtools intersect すればよい。

3′UTRの範囲を記載したBEDファイルを準備

GGGenomeによる検索例

たとえば、下記のようなsiRNAのseed UGAACUC と相補的な GAGUUCA という配列を3′UTRにもつ(seedマッチする)mRNAを検索する。

siVIM-270

curl -s https://gggenome.dbcls.jp/hsnm_refseq215/-/UGAACUC.bed \
  | sed 1d \
  | awk -F "\t" '{ OFS="\t" ; gsub(/ .*/, "", $1) ; print $1,$2,$3 }' \
> GGGenome.bed

(結果 = 28,288行)

NR_028389.1	1998	2005
NR_003928.2	2210	2217
NR_028028.2	3776	3783
NR_110015.1	846	853
NR_110014.1	914	921
NR_002714.1	533	540
NM_001256867.1	1344	1351
NM_001242328.1	1344	1351
NM_001256873.1	1344	1351
NM_001242326.1	1344	1351
[...]

このファイルから3′UTRにヒットしたものを抽出する。

bedtools intersect -wa -f 1 -a GGGenome.bed -b hs_refseq215_3utr.bed \
> GGGenome.UTR3.bed

(メモ)

  • -f 1 なし:1塩基でも重なれば出力する。
  • -f 1 あり:全長が3′UTRに含まれる場合のみ出力する。
    • 今回はこちらを採用。3′UTRの配列DBを作成して検索した場合と同じ結果が得られるようにする。

(結果 = 11,059行)

NM_032333.5	3691	3698
NM_014506.3	1682	1689
NM_173555.4	3111	3118
NM_019596.6	1496	1503
NM_001040273.3	2794	2801
NM_001162496.3	1415	1422
NM_020398.4	863	870
NM_001305225.4	7177	7184
NM_015090.4	9372	9379
NM_001160332.2	9387	9394
[...]

同じ転写産物に対するヒット数

同じ転写産物の3′UTRに複数のseedマッチがある場合は強く抑制される傾向があるので、転写産物ごとのヒット数を調べられるようにしておく。

  • awk でカウントしてみる。
cat GGGenome.UTR3.bed \
  | cut -f 1 \
  | awk -v 'OFS=\t' 'a[$0]++ {} END {
      for( key in a ){ print key, a[key] }
    }'

(結果 = 9,039行)

NM_001375706.1	1
NM_001010989.3	1
NM_001350659.2	3
NM_016089.3	1
NM_006386.5	1
NM_017970.4	2
NM_198395.2	1
NM_003012.5	1
NM_000643.2	1
NM_001348186.2	5
[...]

(確認)NM_001348186.2 の 3′UTR にはseedマッチが5箇所あるか?

  • オレンジ部分がCDS
  • 緑色のハイライトがseedマッチ → OK

NM_001348186.2.png

参考

0
0
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
0
0

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?