表題の作業をすごく苦労したので以下、簡単にまとめておきます。
ChAMPはDNAメチル化の著名な処理パッケージであり、TCGAにはChAMPで読み込めるIllumina 450Kアレイのデータが大量にあるにも拘わらず、何も情報がありませんでした。
前提
R環境での作業、illuminaioとChAMPはインストールされている。
https://www.bioconductor.org/packages/release/bioc/html/ChAMP.html
https://www.bioconductor.org/packages/release/bioc/html/illuminaio.html
TCGAからDNA methylationをダウンロード
https://portal.gdc.cancer.gov/repository
で適当にファイルを選択します。なんでもいいのですが、
Data Categoryはdna methylationを
Data TypeはMasked Intensitiesを
選ぶようにしてください。
選んだら
https://www.pictbio.com/tips/3541.html
を参考にダウンロードしてください(上記記事はRNA-seqの場合ですが同じです)
Sample_Sheet.csvの作成
ここでつまずきました。以下TCGAからダウンロードしたファイル名は
A_Grn.idat A_Red_idat B_Grn.idat B_Red.idat
などとなっているとします(A、Bは長い意味不明のとても文字列になっているはずです)。
Rを起動し
> require(illuminaio)
> x <- readIDAT("A_Grn.idat")
> x$Barcode
> x$Unknown$MostlyA
> x <- readIDAT("B_Grn.idat")
> x$Barcode
> x$Unknown$MostlyA
とやってください。idatファイルのファイル名を
file_x$Unknown$MostlyA_x$Barcode_Grn.idat
file_x$Unknown$MostlyA_x$Barcode_Red.idat
となる様に変更します。たとえばx$Barcode
の出力が6285609049でx$Unknown$MostlyA
の出力がR03C02なら
file_6285609049_R03C02_Grn.idat
file_6285609049_R03C02_Red.idat
になるようにすべてのファイルのファイル名を変更します。
次に
Sample_Sheet.csvを
Sample_Name,Sample_Group,Sentrix_ID,Sentrix_Position
T1,Tumor,6285609049,R03C02
T2,Tumor,9630789235,R06C02
みたいな形にします。つまり、Sentrix_IDの列にはx$Barcode
の値が、Sentrix_Positionの列にはx$Unknown$MostlyA
の出力が並ぶ、
みたいに作ります。
カレントディレクトリにはSample_Sheet.csvとidatファイル以外は存在しないようにしてください。
読み込み
>require(ChAMP)
>myLoad <- champ.load("./",arraytype="450K")
これだけですが膨大な時間を費やしたのにどこにも書かれていなかったので。
注1)最低でも2ペア(Sample_Sheet.csvの(ヘッダーを除いた)行数が2行)以上のデータを用意して下さい。1ペアだけだとエラーが出て読み込めないです。
注2)上記説明でfileの部分はなんでも構いませんし、またSample_Sheet.csvのファイル名も何でもいいです。また、Sample_Name,Sample_Groupの内容は勿論、問題によって変わります。