LoginSignup
2
2

More than 1 year has passed since last update.

【その壱】オープンソースのゲノム解析ツール: Nextstrainを使ってみた

Last updated at Posted at 2021-02-13

はじめに

一般公開されている、コロナウイルス(SARS-CoV-2)の生物情報の配列データ(biological sequence)の解読を試してみたので体験を共有します。

三回に渡って、生き物の遺伝情報である核酸 (DNA/RNA)の塩基配列やタンパク質を構成するアミノ酸配列の中身を探ってみます。

  • Nextstrainでコロナウイルスのゲノム解析を行い解析結果をみてみる
  • NCBIの生物情報配列データでコロナウイルスの突起蛋白のアミノ酸配列を解読してみる
  • 同じく、コロナウイルスのRNAの塩基配列を解読してみる

一回目はオープンソースのゲノム解析ツールおよび解析結果の表示サイト、Nextstrainを取り上げます。

お断り: 筆者はプログラミングが専門で、医療生物は専門ではありません。できるかぎりウラをとったつもりですが、本稿の記載に知識や理解不足から誤りや誤解を生む箇所があるかもしれません。予めご了承ください。ご指摘をいただければさいわいです。

Nextstrain

Nextstrainはオープンソースで開発されている生物情報解析ツール(bioinformatics)です。
解析ツールを提供するほか、専門家が持ち寄るゲノムデータのオンラインデータベースであるGISAIDのデータをNextstrainを用いて解析した結果を見せるサイトも提供しています。

ツールを試す前に表示サイトを見てみました(2021/01/19時点)。

Genomic epidemiology of novel coronavirus - Global subsampling

https://nextstrain.org/ncov/global

順にコロナウイルスの系統図、採取地を示す地図、変異の様子、がわかります。

[Phylogeny]

Phylogeny

[Geography]

Geography

[Diversity]

Diversity

Nextstrain解析ツール

Nextstrainの解析ツールはNextstrain CLIと呼ばれ、Python3で書かれています。
原理的にはLinuxのコマンドラインで使えるのですが、必要とするPythonのライブラリの依存関係があまりに複雑なため、Docker、Conda、AWS Batchなどの動作環境用にあらかじめ用意されたものをセットアップして使うことを勧める、と書かれています。

筆者はConda環境で動かせるチュートリアルを試してみました。

A Getting Started Guide to the Genomic Epidemiology of SARS-CoV-2

https://nextstrain.github.io/ncov/

Nextstrainのツールの使用は解析と表示の二段階に分かれます。
まず公開データや検査データを揃えてNextstrainの解析ツールを実行します。
こうして得られた解析結果は表示ツールでグラフィカルに表示できます。
表示ツールは自前でセットアップすることもできるようですが、Nextstrainの表示サイトを使うのが簡単です。

セットアップ

筆者がチュートリアルを試した環境です。

  • Windows 10 PC (CPU: i5-7200, memory: 16GB)
  • Windows Subsystem for Linux 2(WindowsでLinuxを動かすツール)
  • Debian GNU/Linux 10 (buster) (Linuxのひとつ)

これにCondaをインストールしました。
CondaとはPythonの動作環境のひとつです。
Condaを使うには、Anacondaのミニ版のMinicondaをインストールするのが簡単、とのことで、そのとおりにしました。
Python3もなかったのでこれもインストールしました。

Conda環境にNextstrainをインストールします。

$ curl http://data.nextstrain.org/nextstrain.yml --compressed -o nextstrain.yml
$ conda env create -f nextstrain.yml
$ conda activate nextstrain
$ npm install --global auspice

続いてチュートリアルで使うデータをインストールします。

$ git clone https://github.com/nextstrain/ncov.git

Nextstrainの解析サイトでは専門家用のGISAIDのデータが使われていますが、チュートリアルでは一般公開されているNCBI(米国の国立衛生研究所などが運用している生物情報データベース)のデータを使うようになっています。

GISAID: https://www.gisaid.org/

NCBI: https://www.ncbi.nlm.nih.gov/sars-cov-2/

ゲノムデータ

チュートリアルデータには、解析対象のコロナウイルスのゲノム配列のサンプルデータが含まれています。
ファイルはexample_sequences.fastaです。
圧縮ファイルのexample_sequences.fasta.gzを解凍したものです。

$ pwd
/home/author/nextstrain/ncov/data
$ ls -l
total 13908
-rw-rw-r-- 1 author author   171914 Jan 18 15:06 example_metadata.tsv
-rw-rw-r-- 1 author author 12475184 Jan 19 13:27 example_sequences.fasta
-rw-rw-r-- 1 author author  1591123 Jan 18 15:06 example_sequences.fasta.gz

このファイルにはFASTAという形式で対象の全サンプルデータが収められています。
FASTA形式のファイルは、'>'で始まるヘッダ行(配列データの由来)の後ろに塩基配列またはアミノ酸配列が続きます。
データ中に改行のある場合とない場合とがあります。
example_sequences.fastaの場合は改行なしでウイルス一個の塩基配列が長い一行になっています。
配列の各要素は、塩基配列の場合は核酸(DNA/RNA)の四つの塩基コード(ACGT/U)、アミノ酸配列の場合はタンパク質を構成するアミノ酸コード(AsparagineならN、TyrosineならYなど)です。

$ cat example_sequences.fasta
>Wuhan/Hu-1/2019
ATTAAAGGTTTATACCTTCCCAGGTAACAAACCAACCAACTTTCGATCTCTTGTAGATCTGTTCTCTAAACGAACTTTAAAATCTGTGTGGCTGTCACTCGGCTGCATGCTTAGTGCACTCACGCAGTATAATTAATAACTAATTACTGT...

ごらんのとおりテキストであることがわかります。
最初のデータは武漢で取れたウイルスの塩基配列のようです。

残りのデータのヘッダ部分もみてみます。

$ grep '>' example_sequences.fasta
>Wuhan/Hu-1/2019
>Wuhan/WH01/2019
>Australia/VIC05/2020
>Australia/VIC1000/2020
 ...
>Wuhan/IPBCAMS-WH-03/2019
>Wuhan/IPBCAMS-WH-05/2020
>mink/Netherlands/NB01_01KS/2020
>mink/Netherlands/NB02_06KS/2020

$ grep '>' example_sequences.fasta | wc -l
418

全部で418件あります。
最初のデータが変異株の比較元(reference sequence)のように思えます。
武漢のもののほか、豪州、欧州、インド、米国のウイルスデータが多数あります。
日本、韓国、台湾、ベトナム、マレーシア、スリランカのデータが一件ずつありました。
最後のふたつはミンクを経由して人間に再感染した変異株と思われます。

サンプルデータの詳細データ(メタデータ)はexample_metadata.tsvにタブ区切りテキスト形式で収められています。
これを見ると各ウイルスデータの採取場所、採取日、採取者、DBへの登録番号、登録日などがわかります。

strain virus gisaid_epi_isl genbank_accession date region country division ...
Australia/ VIC05/ 2020 ncov ? MT450922 2020-03-05 Oceania Australia Victoria ...
...

このサンプルデータを使って解析ツールを動かしてみます。

解析実行

Nextstrainコマンドライン解析ツールは専用の実行制御ツール(snakemake)で実行するようになっています。

$ gzip -d -c data/example_sequences.fasta.gz > data/example_sequences.fasta
$ snakemake --cores 4 --profile ./my_profiles/getting_started

解析結果はncov_global.jsonというファイルに出力されます。
これを表示ツールにかければ解析結果が見られます。

Drag and drop auspice/ncov_global.json onto http://auspice.us in your browser.

Nextstrainの結果表示サイトを開いてブラウザの画面にファイルをドラッグドロップします。
表示サイトには、解析データはJavascriptで表示するのでサイトへは送られないと書かれています。

Entry

しばらく待つと解析結果が表示されます(20/01/19実施)。
先に見たNextstrainの表示サイトと似た画面ですが、表示対象のデータは、チュートリアルに含まれるサンプルデータから得られた解析結果です。
データ数が少ないことでそれとわかります。

[Phylogeny]

Phylogeny

[Geography]

Geography

[Diversity]

Diversity

まとめ

Nextstrainというコロナウイルス(SARS-CoV-2)の変異ウイルスの解析結果の表示サイト、および解析ツールを実際に使ってみた様子を紹介しました。

ウイルスの生データや解析ツールが一般人にも利用できることがわかり少し驚きました。

次回は、NCBIという生物情報配列データベースのデータを用いて、タンパク質のアミノ酸配列、具体的にはコロナウイルスが人間の細胞に取りつく部分である突起蛋白のアミノ酸配列を解読してみます。

その次は、同じくNCBIのデータを使って、核酸 (DNA/RNA)の塩基配列、具体的にはコロナウイルスのゲノム配列(RNA)を読んでみる予定です。

参考リンク

横浜工文社の関連ページ

Written 2021/02/07

2
2
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
2
2