ゲノムアセンブリ/アノテーションのクオリティチェックをするためのソフトBUSCO (Benchmarking Universal Single-Copy Orthologs)の使い方をまとめる。
以下のサイトを参照した。
インストール
筆者はMacOS環境を利用した(macOS Sequoia 15.0.1)。
conda環境で、以下のようにインストールした。
$ conda install bioconda::busco
2026年3月27日現在、v6.0.0が公開されており、筆者も同バージョンを使用した。
対象とする生物種
本稿では、筆者が研究対象にしている麹菌Aspergillus oryzaeを対象にした(ASM18445v3)。
NCBIからゲノムアセンブリとアノテーション情報(タンパク質配列)をダウンロードした。
BUSCOの基本的な使い方
基本的には、以下のように実行する。
$ busco -i [SEQUENCE_FILE] -l [LINEAGE] -o [OUTPUT_NAME] -m [MODE] [OTHER OPTIONS]
-m でモードを設定する。
ゲノムアセンブリ(DNA)なら"geno"もしくは"genome"、トランスクリプトーム由来のアセンブリなら"tran"もしくは"transcriptome"、遺伝子アノテーション(タンパク質配列)なら"prot"もしくは"proteins"とする。
-l でデータベースを指定する。
(--auto-lineageで最適化されたデータベースを自動的に探して指定することも可能。)
2026年3月27日現在では、データセットのバージョンはodb12がデフォルトである。
-iで調べたいファイルを指定し、-oで出力フォルダ名を指定する。
データベースの確認
BUSCOではクオリティを調べたいゲノムアセンブリ/アノテーションについて、データベース上の配列と比較することで、オルソログがどのくらい保存されているかという指標で完全性を評価する。
そこで、使用するデータベースを以下のように検討した。
麹菌A. oryzaeはPhylum (Ascomycota)、Class (Eurotiomycetes)、Order (Eurotiales)、Family (Aspergillaceae)、Genus (Aspergillus)というように分類されている。
以下のようにBUSCOで利用可能なデータベースを検索した。
$ busco --list-datasets
A. oryzaeが含まれる系統では、以下のデータベースが該当した。
- eukaryota_odb12 [129]
- fungi_odb12 [1122]
- ascomycota_odb12 [2826]
- eurotiomycetes_odb12 [3665]
- eurotiales_odb12 [4365]
- aspergillus_odb12 [5034]
* Datasets available to be used with BUSCO v5.8.1 and above (numbers in brackets indicate the number of marker gene profiles)
以下では、aspergillus_odb12を利用した。
ゲノムアセンブリの評価
NCBIからダウンロードしたゲノムアセンブリの評価を以下のように行った。
$ busco -i GCA_000184455.3_ASM18445v3_genomic.fasta -l aspergillus_odb12 -o Ao_genome -m geno
以下の結果が出力された。
| Complete and single-copy BUSCOs (S) | Complete and duplicated BUSCOs (D) | Fragmented BUSCOs (F) | Missing BUSCOs (M) |
|---|---|---|---|
| 99.2% | 0.1% | 0.0% | 0.7% |
断片化(F)、欠失(M)した遺伝子が少なく、完全性の高いゲノム配列であることがわかる。
遺伝子アノテーション(タンパク質配列)の評価
NCBIからダウンロードした遺伝子アノテーション(タンパク質配列)の評価を以下のように行った。
$ busco -i protein.fasta -l aspergillus_odb12 -o Ao_genome -m prot
以下の結果が出力された。
| Complete and single-copy BUSCOs (S) | Complete and duplicated BUSCOs (D) | Fragmented BUSCOs (F) | Missing BUSCOs (M) |
|---|---|---|---|
| 80.7% | 0.2% | 7.1% | 11.9% |
ゲノムアセンブリに比べて断片化(F)、欠失(M)した遺伝子が多く、完全性の低いことがわかる。(予測された遺伝子数が過小評価されている可能性が示唆される。)
グラフの作成
複数のゲノムアセンブリを比較したい時に、グラフに図示することも可能。
以下のようにグラフ作成した。
busco --plot <DIRECTORY>
directory内に、jsonファイルを入れておく。(複数ファイルを同じdirectoryに入れておけば、比較用のグラフが出力できる。)
以下はゲノムアセンブリの評価の結果を出力したものになる。
