遺伝子情報の取得から相同性検索までの流れを紹介する
Outline
1.遺伝子情報の取得
2.相同性検索
1.遺伝子情報の取得
遺伝子情報が蓄積された公共データベース
NCBI
UCSC
Ensembl
Ensembl | https://asia.ensembl.org/index.html
ゲノム配列が解読済みの生物のゲノムを閲覧できる。一つの遺伝子から得られる情報は思ってるより多く、生物の前提知識があってもどこを見ればいいか分からず戸惑うことがあると思う。
検索結果から見たいものを選んでクリックすると以下のページに飛ぶ。
- Description: 遺伝子の機能についての説明
- Location: 染色体上の位置
- About this gene: 遺伝子の特徴 (transcript vatiants、オーソログ、関連づけられる形質 etc...)
- Transcripts: 転写産物。選択的スプライシングにより一つの遺伝子に複数の転写産物が対応していることが多い。
左側のパネルから、GOを見たりアライメントしたり系統樹見たり多くの情報をえることができる。全部理解しようとすると疲れる。
左側のExport data > next > txt でfast形式のファイルをダウンロードできる。
FASTA format
>YBR024W cds chromosome:R64-1-1:II:289445:290350:1 gene:YBR024W gene_biotype:protein_coding transcript_biotype:protein_coding gene_symbol:SCO2 description:Protein anchored to mitochondrial inner membrane; may have a redundant function with Sco1p in delivery of copper to cytochrome c oxidase; interacts with Cox2p; SCO2 has a paralog, SCO1, that arose from the whole genome duplication [Source:SGD;Acc:S000000228]
ATGTTGAATAGTTCAAGAAAATATGCTTGTCGTTCCCTATTCAGACAAGCGAACGTCTCA
ATAAAAGGACTCTTTTATAA...
2.相同性解析
今、手元に酵母の全ゲノムyeast_genes.nuc
とヒートショックプロテインの遺伝子HSP.nuc
があるとする。
酵母の全ゲノムからHSPに相同な配列をblastで探す。
$ makeblastdb -in yeast_genes.nuc -dbtype nucl -hash_index
$ blastn -outfmt 6 -evalue 1e-25 -db yeast_genes.nuc -query HSP.nuc -out HSP.blastn
ここらへんの意味やパラメータについてはhttps://bi.biopapyrus.jp/seq/blast/blastn.html
が詳しく説明しているので参照されたい。
出力ファイルに指定したHSP.blastnに相同性検索の結果ヒットした参照の遺伝子名が記載されている。
YAL005Cが検索クエリに使った配列で、それに対して酵母の配列が取れてきているのがわかる。
YAL005C YAL005C 100.000 1929 0 0 1 1929 1 1929 0.0 3563
YAL005C YLL024C 96.427 1931 56 6 1 1929 1 1920 0.0 3171
YAL005C YNL209W 77.057 1203 238 33 10 1190 25 1211 0.0 658
YAL005C YDL229W 74.607 1591 350 48 10 1570 25 1591 0.0 651