##はじめに
これは個人用に調べたメモ書きです。誤りを含んでいる可能性があります。問題点があればご指摘いただけますと幸いです。
##序論
次世代シークエンスの解析においてfastqcなどでreadのクオリティの確認を行った時にdry解析上でduplicate readsが多数検出される。これらは取り除くべきなのかどうかを検討した。
##本論
重複しているかどうかの判断はmappingの位置によって判断される。[1] fastqcではmappingする前に検出はするが、どちらにせよリードの塩基配列情報からmappingするのでほぼ同義だと考えられる。そしてこれはPCRによるものと自然な重複を区別していない。[1]
RNA-seqの研究に関しては、Parekh Sらの研究[1]において3つの異なるプロトコル(Smart-Seq、TruSeq、UMI-seq)で作成したRNA-seqデータセットを生成し、解析したところ計算によって同定されたリードの重複の大部分はPCRの重複ではなく、サンプリングやフラグメンテーションのバイアスによって説明でき、その結果、計算機上で重複を除去しても、精度や正確さは向上せず、むしろ遺伝子発現の違いを示す検出力やFalse Discovery Rate (FDR)を悪化させる可能性があると結論づけられた。
Yu Fuらの研究[2]によってもmapping座標によって重複を削除するとデータ分析にかなりのバイアスが生じることが活論づけられている。
ChIP-seqの研究に関しても、Tian Sらの研究[3]によってピークの重複のかなりの部分は、分析のために保持する必要がある真のシグナルを表すと予測される、と結論づけられている。
mapping情報による重複の削除においてはレビュー論文[4]でも言及されており、次世代シークエンスの解析において、一般的に全ゲノムシークエンスでは重複したreadは技術的なバイアスとして削除されるのに対して、RNA-seqでは保持されると記載がある。PEでも可能性は低くなるが同様である。シングルセル解析などでも用いられるUMIはある程度有用であるようである。
対して、Atac-seqの研究に関してはPranzatelli TJFらの研究[5]によってpicard toolによるduplicateの削除によって生物学的再現性が向上するとされている。(ミトコンドリアゲノムとencodeのblacklist領域も廃棄されるべきである。[6])
##結論
RNA-seqとChIP-seqのデータ解析においてmappingによる判断だけでduplicate readsの削除を行うべきではないと考えられる。
Atac-seqのデータ解析においてはduplicate readsの削除は行われるべきであると考えられる。
##参考文献
[1] Parekh S, Ziegenhain C, Vieth B, Enard W, Hellmann I. The impact of amplification on differential expression analyses by RNA-seq. Sci Rep. 2016;6:25533. Published 2016 May 9. doi:10.1038/srep25533
[2] Fu Y, Wu PH, Beane T, Zamore PD, Weng Z. Elimination of PCR duplicates in RNA-seq and small RNA-seq using unique molecular identifiers. BMC Genomics. 2018;19(1):531. Published 2018 Jul 13. doi:10.1186/s12864-018-4933-1
[3]Tian S, Peng S, Kalmbach M, Gaonkar KS, Bhagwate A, et al. (2019) Identification of factors associated with duplicate rate in ChIP-seq data. PLOS ONE 14(4): e0214723. https://doi.org/10.1371/journal.pone.0214723
[4]Stark, R., Grzelak, M. & Hadfield, J. RNA sequencing: the teenage years. Nat Rev Genet 20, 631–656 (2019). https://doi.org/10.1038/s41576-019-0150-2
[5]Pranzatelli TJF, Michael DG, Chiorini JA. ATAC2GRN: optimized ATAC-seq and DNase1-seq pipelines for rapid and accurate genome regulatory network inference [published correction appears in BMC Genomics. 2019 Jan 15;20(1):44]. BMC Genomics. 2018;19(1):563. Published 2018 Jul 31. doi:10.1186/s12864-018-4943-z
[6]Yan, F., Powell, D.R., Curtis, D.J. et al. From reads to insight: a hitchhiker’s guide to ATAC-seq data analysis. Genome Biol 21, 22 (2020). https://doi.org/10.1186/s13059-020-1929-3