論文出したいから、データをオープンにしたいなぁ
せっかくシーケンスをしたのでバクテリアゲノムを公開することにした。複数サンプルでなければゲノムの登録作業には2時間弱見ておけば軽く終わると思う。当方は初めての登録であったが、1時間程度で終了した。今回は初めてゲノム配列の登録をしたので、新しくやる人に向けて作業中に感じたことをまとめていく。本稿はさらっと読んで流れを参考にして、すぐにTogoTVに向かうと多分わかりやすいと思う。要は本稿はやり方とかではなく、感想と意見なので悪しからず読み進めていただければと思う。
データの準備
ゲノムデータの公開をするには、Fastqの生データと解析済みのFastaデータがあればOKである。最も楽に提出するにはDFAST web版でアノテーションをかけるといいと思う。これについては後ほど説明する。今回はFastq -> Fastaの順で登録した。理由についても以下に記載している。
まずやるべきこと (生Fastq登録)
まずやるべきことはTogoTVを見ることである。動画なので、見ながらやれば早い。その後、サイトの説明を読むとやるべきことがわかる。
TogoTV: https://togotv.dbcls.jp/20190523.html
DRAサイト: https://www.ddbj.nig.ac.jp/dra/submission.html#dra-data-submission
登録するものの構造としては
BioProject (Study)
研究プロジェクトの内容
「なぜ」そのサンプルをシークエンスしたのか
BioSample (Sample)
生物学的、物理的にユニークなサンプル
「何を」シークエンスしたのか
をまず登録する。
そして、これを
DRA Experiment
特定のサンプルから構築したライブラリーについての説明
「どのように」シークエンスをしたのか
複数の Experiment は一つの Sample を参照できるが、逆はできない
DRA Run
Experiment と Run を投稿した後、データファイルの検証処理を開始
Run にリンクしている全てのデータファイルは 1 つの SRA ファイルにマージされます
とリンクさせる。Fastqの生データとFastaファイルのどちらを先にやるべきかと悩むが、当方は今後Fastqから登録することに決めた。理由はFastqから登録して、BioProject (Study)やBioSample (Sample)を作ればFastaファイルを登録する際にも用いることができるからである。さらに、ゲノムサイズのデータ登録をする際はMSSを利用する必要があり、時間がかかるため多分先にFastqファイルを登録するのが正解。なお、特にDRA Experimentなどについて言えることだが、シーケンスの方法について細かく聞かれるので実験ノートを手元に置いておくか、シーケンスに詳しい人に聞いておくといい。あらかじめ、埋めるフォーマットを見ておくと必要な項目がわかる。
TogoTV通りに行なっていくと、だいたい1時間くらいで作業を終えることができた。非常にわかりやすかった。Submissionを終えてから1週間ほどでDDBJの職員様から返信をいただき、登録完了のお知らせをいただいた。データについては登録しても、指定した日までConfidentialにできるので、論文に掲載したい場合は早めに登録しておくといい。わずか1週間で登録作業を終えられるし、実働1~2時間で終了したので、正直びっくりである。ありがとうございます!とこの場を借りてお礼を言いたい。
続いてMSS (Fasta登録)
続いてFastaファイルを登録していく。MSSはMass Submission Systemのことで、でかいデータを登録するときに利用するシステムらしい。MSSよりもお手軽に利用できるNSSSはゲノムデータには利用不可能。
配列が長い(目安は 500 kb 以上)
エントリあたりに多数(概ね30以上)のFeature がある
WGS, CON, TSA, TLS, HTC, HTG, EST, GSS, STS の登録
に該当したら諦めてMSSを利用する。MSSはメールでのやり取りを行うシステムで、職員さんと協力して登録するような感じになっている。
参照: https://www.ddbj.nig.ac.jp/ddbj/mss.html
Fastqファイルの登録と違う点はファイルの準備が正直めんどくさいことである。規定がたくさんあり、非常に難しい。そこで、利用できるのがDFASTである。
上記はアノテーション後のサイトの様子である。DDBJ submission用にフォームがあり、丁寧に流れまで記載してくださっている。特筆すべきはParser および transCheckerを自動でやってくれるところである。ボタンを押せばダメなところを教えてくれる。Parser および transCheckerについてはMSSのURL参照。この際BioProjectとBioSamole、SRA番号が必要になる。したがって、あらかじめFastqファイルを登録する感じが正しいのだと思う。
まとめ
- 論文を出すずっと前に登録を終えておくと便利。
- FASTQ -> FASTA
- DFASTを使うと楽にゲノム登録できる。
Comments