Help us understand the problem. What is going on with this article?

DDBJに配列情報登録してみた

論文出したいから、データをオープンにしたいなぁ

せっかくシーケンスをしたのでバクテリアゲノムを公開することにした。複数サンプルでなければゲノムの登録作業には2時間弱見ておけば軽く終わると思う。当方は初めての登録であったが、1時間程度で終了した。今回は初めてゲノム配列の登録をしたので、新しくやる人に向けて作業中に感じたことをまとめていく。本稿はさらっと読んで流れを参考にして、すぐにTogoTVに向かうと多分わかりやすいと思う。要は本稿はやり方とかではなく、感想と意見なので悪しからず読み進めていただければと思う。

データの準備

ゲノムデータの公開をするには、Fastqの生データと解析済みのFastaデータがあればOKである。最も楽に提出するにはDFAST web版でアノテーションをかけるといいと思う。これについては後ほど説明する。今回はFastq -> Fastaの順で登録した。理由についても以下に記載している。

まずやるべきこと (生Fastq登録)

まずやるべきことはTogoTVを見ることである。動画なので、見ながらやれば早い。その後、サイトの説明を読むとやるべきことがわかる。
TogoTV: https://togotv.dbcls.jp/20190523.html
DRAサイト: https://www.ddbj.nig.ac.jp/dra/submission.html#dra-data-submission

登録するものの構造としては

BioProject (Study)
研究プロジェクトの内容
「なぜ」そのサンプルをシークエンスしたのか

BioSample (Sample) 
生物学的、物理的にユニークなサンプル
「何を」シークエンスしたのか

をまず登録する。
そして、これを

DRA Experiment 
特定のサンプルから構築したライブラリーについての説明
「どのように」シークエンスをしたのか
複数の Experiment は一つの Sample を参照できるが、逆はできない

DRA Run 
Experiment と Run を投稿した後、データファイルの検証処理を開始
Run にリンクしている全てのデータファイルは 1 つの SRA ファイルにマージされます

とリンクさせる。Fastqの生データとFastaファイルのどちらを先にやるべきかと悩むが、当方は今後Fastqから登録することに決めた。理由はFastqから登録して、BioProject (Study)やBioSample (Sample)を作ればFastaファイルを登録する際にも用いることができるからである。さらに、ゲノムサイズのデータ登録をする際はMSSを利用する必要があり、時間がかかるため多分先にFastqファイルを登録するのが正解。なお、特にDRA Experimentなどについて言えることだが、シーケンスの方法について細かく聞かれるので実験ノートを手元に置いておくか、シーケンスに詳しい人に聞いておくといい。あらかじめ、埋めるフォーマットを見ておくと必要な項目がわかる。

TogoTV通りに行なっていくと、だいたい1時間くらいで作業を終えることができた。非常にわかりやすかった。Submissionを終えてから1週間ほどでDDBJの職員様から返信をいただき、登録完了のお知らせをいただいた。データについては登録しても、指定した日までConfidentialにできるので、論文に掲載したい場合は早めに登録しておくといい。わずか1週間で登録作業を終えられるし、実働1~2時間で終了したので、正直びっくりである。ありがとうございます!とこの場を借りてお礼を言いたい。

続いてMSS (Fasta登録)

続いてFastaファイルを登録していく。MSSはMass Submission Systemのことで、でかいデータを登録するときに利用するシステムらしい。MSSよりもお手軽に利用できるNSSSはゲノムデータには利用不可能。

配列が長い(目安は 500 kb 以上)
エントリあたりに多数(概ね30以上)のFeature がある
WGS, CON, TSA, TLS, HTC, HTG, EST, GSS, STS の登録

に該当したら諦めてMSSを利用する。MSSはメールでのやり取りを行うシステムで、職員さんと協力して登録するような感じになっている。
参照: https://www.ddbj.nig.ac.jp/ddbj/mss.html

Fastqファイルの登録と違う点はファイルの準備が正直めんどくさいことである。規定がたくさんあり、非常に難しい。そこで、利用できるのがDFASTである。
スクリーンショット 2020-02-13 18.58.59.png
上記はアノテーション後のサイトの様子である。DDBJ submission用にフォームがあり、丁寧に流れまで記載してくださっている。特筆すべきはParser および transCheckerを自動でやってくれるところである。ボタンを押せばダメなところを教えてくれる。Parser および transCheckerについてはMSSのURL参照。この際BioProjectとBioSamole、SRA番号が必要になる。したがって、あらかじめFastqファイルを登録する感じが正しいのだと思う。

まとめ

  • 論文を出すずっと前に登録を終えておくと便利。
  • FASTQ -> FASTA
  • DFASTを使うと楽にゲノム登録できる。
danryo_official
岐阜大学応用生物科学部応用微生物学研究室学部4年生でした。今は大学院修士課程です。バクテリアゲノム解析などが好きです。質問、リバイス等勉強になりますので、是非お願いします。Twitter (@danryo_official) か、v8024064 (at) edu.gifu-u.ac.jp (丹羽) 宛に連絡ください。
Why not register and get more from Qiita?
  1. We will deliver articles that match you
    By following users and tags, you can catch up information on technical fields that you are interested in as a whole
  2. you can read useful information later efficiently
    By "stocking" the articles you like, you can search right away
Comments
No comments
Sign up for free and join this conversation.
If you already have a Qiita account
Why do not you register as a user and use Qiita more conveniently?
You need to log in to use this function. Qiita can be used more conveniently after logging in.
You seem to be reading articles frequently this month. Qiita can be used more conveniently after logging in.
  1. We will deliver articles that match you
    By following users and tags, you can catch up information on technical fields that you are interested in as a whole
  2. you can read useful information later efficiently
    By "stocking" the articles you like, you can search right away
ユーザーは見つかりませんでした