[PictBio HP「解析メモ」](https://www.pictbio.com/tips/1029.html)から移行中です。
元記事:2016/3/28 公開 ファイルのフォーマットを判別する
バイオデータには様々なファイルのフォーマット定義があります。フォーマットによって、ファイルにどのような情報が入っているかが異なります。このフォーマットを判別するのには「拡張子」を用います。
名称 | 拡張子 | 内容 |
---|---|---|
FASTA | .fasta/.fa/.fna/.faa など | アミノ酸や塩基配列の情報 |
BED | .bed | 配列上のポジションの情報 |
GTF, GFF | .gtf/.gff/.gff3 | ゲノム配列上の遺伝子情報 |
GenBank | .gbk/.gb | 配列のアノテーション情報 |
拡張子はパソコンがどのソフトでファイルを開くのか、判別する目印に使われています。例えば、「.txt」で終わるファイルをダブルクリックで開こうとすると、Windowsのデフォルトでは「メモ帳」ソフトで開くように設定されています。
初期設定ではファイル名の拡張子が表示されていませんが、変更することで見えるようにすることが可能です。
###Windowsの場合
こちらのMicrosoftのページが詳しいです。
###Macの場合
フォルダメニューの「環境設定」を開きます。
詳細に移動し、「すべてのファイル名拡張子を表示」にチェックを入れます。
ソフト自体も「拡張子」から、ファイルに何の情報が記録されているかを判断することがあります。IGVなどのゲノムビューワーでゲノム配列のインポートをファイルから行う際は、主にFASTAフォーマットを使用します。
要求されているファイルを持っているかどうか、拡張子で判別できますので、表示する設定にしておくとファイルを探すのに便利です。