概要
細菌のゲノム解析を行うにあたり、遺伝子のアノテーションやどのようなドメインを持っているタンパク質が遺伝子にコードされているのかを調べる必要があります。
アノテーションにはDFASTやRASTなどがよく用いられ、どの様なドメインを持つかはHMMERがよく用いられます。
「condaが有償になってしまったことも相まってDFASTの導入が少し面倒になった」、「RASTは登録が必要」、「HMMERをゲノム全体に行うためには全タンパク質の情報を抽出するといった少し前処理が必要」など、少し障壁があると思います。
なので、本稿ではGoogle Colaboratory上でDFASTとHMMER解析を実装できるようにしたので、共有します。
DFAST
https://colab.research.google.com/drive/1k6SbtiHul75RwzxvBF2zrb8PqeRUL-s7?usp=sharing
HMMER
https://colab.research.google.com/drive/1O3FbqkvwTa2f1Dy33Ck9xiSROud8EQoW?usp=sharing
DFAST
セットアップ
Start istallation for appsを実行すれば、実行環境は整います。
具体的にはGithubからDFASTの元コードをダウンロードし、biopythonやncbi-blast+を入れているだけです。
唯一、特殊な点は"libidn11"をマニュアルで導入している点です。これがないとデータベースダウンロードの際にエラーが出ます。
!git clone https://github.com/nigyta/dfast_core.git
!cd dfast_core
!pip install biopython
!apt-get install -y ncbi-blast+
!wget http://archive.ubuntu.com/ubuntu/pool/main/libi/libidn/libidn11_1.33-2.1ubuntu1_amd64.deb
!dpkg -x libidn11_1.33-2.1ubuntu1_amd64.deb libidn11
!cp libidn11/lib/x86_64-linux-gnu/libidn.so.11* /usr/lib/
データベースダウンロード
次に、DFASTによる遺伝子解析を行うためのデータベースをダウンロードします。
Download Databasesを実行してください。
!python dfast_core/scripts/dfast_file_downloader.py --protein dfast
!python dfast_core/scripts/dfast_file_downloader.py --cdd Cog --hmm TIGR
インストールされたdfast_coreというフォルダの中のscriptsというフォルダに入っているdfast_file_downloader.pyというスクリプトを上記のコマンドで動かしています。
DFASTの実行とデータのダウンロード
まず、解析をしたいFASTA形式のファイルをアップロードします。3. Uploading your fasta fileを実行すると、ファイルをアップロードというボタンが出てきます (下図)。
アップロードボタンをクリックすると自身のPCにアクセスできるので、目的のFASTAファイルを選択してアップロードしてください。
次に、ファイルを保存するフォルダの名前をつけます。outputfolderに適宜名前を入れてください。デフォルトはtestになっています。
解析は20分くらいかかると思います。解析後はダウンロードのセルを実行すると自動でフォルダが圧縮されてデータがダウンロードされます。
HMMER
セットアップ
DFASTとは異なりpipでインストールできます。
pip install hmmer
解析をするためにはデータベースのダウンロードを行う必要があります。HMMERにあるようにSwissplot、Uniplot、PDBなどのデータベースがあります。ダウンロード先のURLとダウンロードファイル名 (.gzを排除した形) を記載してください。
デフォルトはPfam-Aになっており、これを使っていれば基本は問題ないです。
ファイルのアップロードと解析
ファイルのアップロードはDFASTのデータベースダウンロード の項を参照してください。
ファイルがアップロードできたらアウトプットファイルにつける名前を記載してください。
また、HMMERの解析を行うために、cpu数とE-valueを設定してください。デフォルトではCPUが16、E-valueを1e-4としています。CPU数は16で動くことを確認していますが、それ以上は解析が止まってしまうかもしれません。また、止まるようでしたら8とかに下げてみてください。
設定が終わったら、「Running HMMER analysis」のセルを実行して解析を行ってください。
ファイルのダウンロード
このセルを実行すると、HMMERにより得られる全解析結果のCSVファイル、このCSVファイルから各タンパク質のどの領域にどのドメインがあるかをまとめたCSVファイル (トップヒットのみを表記)、Genbankファイルから取得した含まれる全タンパク質の情報をまとめたMultiple FASTAファイルの3つが排出されます。
まとめ
これらのスクリプトにより、バクテリアのゲノム情報のFASTAファイルからアノテーションと機能予測をGoogle Colaboratoryで行うことが可能です。
真核生物についてはAUGUSTUSなどでアノテーションがついたgenbankファイルを作っておくことにより、HMMERによる解析可能となります。