Google Colaboratoryで行うバクテリアゲノムのDFASTによる遺伝子アノテーションとHMMERによるドメイン解析

Last updated at 2025-10-03Posted at 2025-10-03

概要

細菌のゲノム解析を行うにあたり、遺伝子のアノテーションやどのようなドメインを持っているタンパク質が遺伝子にコードされているのかを調べる必要があります。

アノテーションにはDFASTやRASTなどがよく用いられ、どの様なドメインを持つかはHMMERがよく用いられます。

「condaが有償になってしまったことも相まってDFASTの導入が少し面倒になった」、「RASTは登録が必要」、「HMMERをゲノム全体に行うためには全タンパク質の情報を抽出するといった少し前処理が必要」など、少し障壁があると思います。
なので、本稿ではGoogle Colaboratory上でDFASTとHMMER解析を実装できるようにしたので、共有します。
DFAST
https://colab.research.google.com/drive/1k6SbtiHul75RwzxvBF2zrb8PqeRUL-s7?usp=sharing

HMMER
https://colab.research.google.com/drive/1O3FbqkvwTa2f1Dy33Ck9xiSROud8EQoW?usp=sharing

DFAST

セットアップ

Start istallation for appsを実行すれば、実行環境は整います。

具体的にはGithubからDFASTの元コードをダウンロードし、biopythonやncbi-blast+を入れているだけです。

唯一、特殊な点は"libidn11"をマニュアルで導入している点です。これがないとデータベースダウンロードの際にエラーが出ます。

Apps installation

!git clone https://github.com/nigyta/dfast_core.git
!cd dfast_core
!pip install biopython
!apt-get install -y ncbi-blast+
!wget http://archive.ubuntu.com/ubuntu/pool/main/libi/libidn/libidn11_1.33-2.1ubuntu1_amd64.deb
!dpkg -x libidn11_1.33-2.1ubuntu1_amd64.deb libidn11
!cp libidn11/lib/x86_64-linux-gnu/libidn.so.11* /usr/lib/

データベースダウンロード

次に、DFASTによる遺伝子解析を行うためのデータベースをダウンロードします。
Download Databasesを実行してください。

Database Download

!python dfast_core/scripts/dfast_file_downloader.py --protein dfast
!python dfast_core/scripts/dfast_file_downloader.py --cdd Cog --hmm TIGR

インストールされたdfast_coreというフォルダの中のscriptsというフォルダに入っているdfast_file_downloader.pyというスクリプトを上記のコマンドで動かしています。

DFASTの実行とデータのダウンロード

まず、解析をしたいFASTA形式のファイルをアップロードします。3. Uploading your fasta fileを実行すると、ファイルをアップロードというボタンが出てきます (下図)。

アップロードボタンをクリックすると自身のPCにアクセスできるので、目的のFASTAファイルを選択してアップロードしてください。

次に、ファイルを保存するフォルダの名前をつけます。outputfolderに適宜名前を入れてください。デフォルトはtestになっています。

解析は20分くらいかかると思います。解析後はダウンロードのセルを実行すると自動でフォルダが圧縮されてデータがダウンロードされます。

HMMER

セットアップ

DFASTとは異なりpipでインストールできます。

Installation

pip install hmmer

解析をするためにはデータベースのダウンロードを行う必要があります。HMMERにあるようにSwissplot、Uniplot、PDBなどのデータベースがあります。ダウンロード先のURLとダウンロードファイル名 (.gzを排除した形) を記載してください。
デフォルトはPfam-Aになっており、これを使っていれば基本は問題ないです。

ファイルのアップロードと解析

ファイルのアップロードはDFASTのデータベースダウンロードの項を参照してください。

ファイルがアップロードできたらアウトプットファイルにつける名前を記載してください。
また、HMMERの解析を行うために、cpu数とE-valueを設定してください。デフォルトではCPUが16、E-valueを1e-4としています。CPU数は16で動くことを確認していますが、それ以上は解析が止まってしまうかもしれません。また、止まるようでしたら8とかに下げてみてください。

設定が終わったら、「Running HMMER analysis」のセルを実行して解析を行ってください。

ファイルのダウンロード

解析が終わったら解析結果をダウンロードします。

このセルを実行すると、HMMERにより得られる全解析結果のCSVファイル、このCSVファイルから各タンパク質のどの領域にどのドメインがあるかをまとめたCSVファイル (トップヒットのみを表記)、Genbankファイルから取得した含まれる全タンパク質の情報をまとめたMultiple FASTAファイルの3つが排出されます。

まとめ

これらのスクリプトにより、バクテリアのゲノム情報のFASTAファイルからアノテーションと機能予測をGoogle Colaboratoryで行うことが可能です。
真核生物についてはAUGUSTUSなどでアノテーションがついたgenbankファイルを作っておくことにより、HMMERによる解析可能となります。

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up