TCGAのデータをChAMPで読み込む

Last updated at 2022-12-24Posted at 2022-12-23

表題の作業をすごく苦労したので以下、簡単にまとめておきます。
ChAMPはDNAメチル化の著名な処理パッケージであり、TCGAにはChAMPで読み込めるIllumina 450Kアレイのデータが大量にあるにも拘わらず、何も情報がありませんでした。

前提

R環境での作業、illuminaioとChAMPはインストールされている。
https://www.bioconductor.org/packages/release/bioc/html/ChAMP.html
https://www.bioconductor.org/packages/release/bioc/html/illuminaio.html

TCGAからDNA methylationをダウンロード

https://portal.gdc.cancer.gov/repository
で適当にファイルを選択します。なんでもいいのですが、
Data Categoryはdna methylationを
Data TypeはMasked Intensitiesを
選ぶようにしてください。
選んだら
https://www.pictbio.com/tips/3541.html
を参考にダウンロードしてください（上記記事はRNA-seqの場合ですが同じです）

Sample_Sheet.csvの作成

ここでつまずきました。以下TCGAからダウンロードしたファイル名は
A_Grn.idat A_Red_idat B_Grn.idat B_Red.idat
などとなっているとします（Ａ、Ｂは長い意味不明のとても文字列になっているはずです）。
Ｒを起動し

> require(illuminaio)
> x <- readIDAT("A_Grn.idat")
> x$Barcode　
> x$Unknown$MostlyA
> x <- readIDAT("B_Grn.idat")
> x$Barcode
> x$Unknown$MostlyA

とやってください。idatファイルのファイル名を

file_x$Unknown$MostlyA_x$Barcode_Grn.idat
file_x$Unknown$MostlyA_x$Barcode_Red.idat

となる様に変更します。たとえばx$Barcodeの出力が6285609049でx$Unknown$MostlyAの出力がR03C02なら
file_6285609049_R03C02_Grn.idat
file_6285609049_R03C02_Red.idat
になるようにすべてのファイルのファイル名を変更します。

次に
Sample_Sheet.csvを
Sample_Name,Sample_Group,Sentrix_ID,Sentrix_Position
T1,Tumor,6285609049,R03C02
T2,Tumor,9630789235,R06C02
みたいな形にします。つまり、Sentrix_IDの列にはx$Barcodeの値が、Sentrix_Positionの列にはx$Unknown$MostlyAの出力が並ぶ、
みたいに作ります。

カレントディレクトリにはSample_Sheet.csvとidatファイル以外は存在しないようにしてください。

読み込み

>require(ChAMP)
>myLoad <- champ.load("./",arraytype="450K")

これだけですが膨大な時間を費やしたのにどこにも書かれていなかったので。

注１）最低でも２ペア（Sample_Sheet.csvの（ヘッダーを除いた）行数が２行）以上のデータを用意して下さい。１ペアだけだとエラーが出て読み込めないです。

注２）上記説明でfileの部分はなんでも構いませんし、またSample_Sheet.csvのファイル名も何でもいいです。また、Sample_Name,Sample_Groupの内容は勿論、問題によって変わります。

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up