世の中のデータファイルにはいろんな形式があります。バイオデータベースで採用されているファイル形式にも、以下のような様々な形式があります。
名称 | 内容 |
---|---|
FASTA | アミノ酸や塩基配列の情報 |
BED | 配列上のポジションの情報 |
GTF, GFF | ゲノム配列上の遺伝子情報 |
GenBank | 配列のアノテーション情報 |
↓ファイルフォーマットについて
ファイルのフォーマットを判別する
一例ですが、ここに挙げたファイルは全て目で見ることが可能です。Windowsに標準搭載されている「メモ帳」でも開くことができる場合があります。気をつけるべき点は「巨大ファイル」「改行コードがLinux」であることです。
###巨大ファイル
「メモ帳」はバイオデータベースに登録されているような、大きなデータサイズの表示ができません。
###改行コードがLinux
改行コードとはコンピューターが「ここが改行位置である」という人の目には見えない目印。OSごとに異なるのでWindowsはLinuxの改行位置を判別することができません。(MacはLinuxに近い要素があるため、表示できる可能性あり。)
追記:最近(2021/7/13)Windows10付属の「メモ帳」でLinux改行ファイルを開いてみたら、正しく開けるようになってました。
これらの問題を解決するのに我々が使用しているのが、フリーのテキストエディタです。検索すると多くの方が開発して、配布してくださっています。
###よく使うエディタ一例
一際巨大なファイルは表示ができないこともありますが、大体のファイルを開くことができます。
よくある「タブ文字区切り(TSV)ファイル」を見るときに、タブ文字をマーク表示してくれて見やすいです。(表示設定の調整にもよります。)
また、改行コードの変換を行ってくれたりします。これを使いこなせばWindowsで作ったテキストファイルをMacユーザーの先生に送っても大丈夫!!
お持ちのデータをテキストエディターで開いて観察してみてはいかがでしょうか?