1
1

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?

More than 3 years have passed since last update.

FASTAファイルについて

Last updated at Posted at 2021-07-13
[PictBio HP「解析メモ」](https://www.pictbio.com/tips/3364.html)から移行中です。 元記事:2021/5/28 公開 FASTAファイルについて

 今回は初心に帰ってFASTAファイルについてになります。

 FASTAファイルはバイオインフォマティクスをやっていなくてもご利用されている方もいらっしゃるかと思います。 そうでない方も、シンプルなのにたくさんの情報が詰まった便利なファイルですので是非ご確認ください。

ファイルのフォーマットを判別する

 FASTAファイルは塩基、アミノ酸配列の情報を記載するファイルフォーマットであり、次のような書式になっています。

FASTA形式

 「>(大なり)」で始まる行は配列のID(ユニークな名称)です。 次のID(>(大なり)が来るまで、1つの配列情報です。配列は好きな位置で改行できます。

 塩基のATGCのように1分子を1文字であらわし、配列の並びがわかります。 どの文字が何の分子を表しているかのルールとして、IUPACコードが使われていることが多いです。

IUPACコード

 1分子1文字とはいえ、ヒトのゲノムサイズは約30億塩基対であるため、ゲノムのFASTAファイルのデータサイズはかなり巨大になります。

バイオデータベースで取得した巨大ファイルを目でみる

 次のような特殊な配列もあらわすことができます。

表記 内容
N 不明な分子
. (または「-」) ギャップ

 データベースによっては複数の分子を表すこともあり、SNPなども表現できます。 また、大文字小文字で情報で信頼度や繰り返し配列を表すこともあります。信頼度の場合、大文字で信頼度の高い情報、小文字で信頼度の低い情報を表します。

 ここまでくると、FASTAファイルの提供元がどんなルールで記載しているか明示してあることが多いです。 FASTAファイルを見かけた際は、是非注目してみてください。

1
1
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
1
1

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?