目次
1. 次世代シーケンサー(NGS)とは
2. NGSでできる解析、わかること
3. NGS装置の選び方
4. NGS解析にかかるコスト
1. 次世代シーケンサー(NGS)とは
まず、シーケンサーとは DNA の塩基の並び(配列)を読む機械の事を指します。
従来の DNA 配列決定には サンガー法 と呼ばれる手法が用いられてきました。
サンガー法の登場は DNA シーケンスに革命を起こしましたが、原理上1度に1つの DNA 断片しかシーケンスできず、多くのシーケンス量を得るには多大なコストと時間が必要でした。
そんな中、大量の DNA 断片を並列にシーケンスする Next-Generation Sequencing (NGS) と呼ばれる手法が登場しました。
NGS は、大量のシーケンスを処理することから High-throughput sequencing (HTS) とも呼称されます。
本記事ではそんな NGS の全体像が簡単につかめるように、NGS が可能にした解析の数々、装置と技術の選び方、気になる費用についてざっくりとまとめました。
PubMed に登録されたNGS関連論文数の推移
NGS の急速な普及を示しています。
2. NGSでできる解析、わかること
NGS ではサンガー法に比べて大量の DNA 断片をシーケンスできることができ、それを活かした解析ロジックが多く開発されています。
この中から代表的な解析について、いくつかを簡単にご紹介いたします。
解析手法の登場時期と引用数(引用元:High-Throughput Sequencing Technologies)
NGSを用いた解析手法は多数開発されています。
この図はそれぞれの手法が開発された時期と、どれだけ多くの論文で使用されているかを示しています。
RNA
RNA-Seq解析(WTS、 Whole Transcriptome Sequencing)
サンプル内の全RNAをシーケンスし、遺伝子の発現量を網羅的に解析する手法です。
遺伝子間やサンプル間での発現量比較に用いられます。
例えば、がん細胞や特定の産地でのみ発現している遺伝子を特定するような研究に適しています。
DNA
全ゲノム解析(WGS、 Whole Genome Sequencing)
生物のゲノム全域を対象とした解析です。
リファレンスゲノムがある場合はシーケンスデータと比較して SNPs、InDel、構造変異といったバリアントを検出することができます。
リファレンスゲノムがある上で再度シーケンスするといった意味合いで リシーケンス とも呼ばれます。
ターゲットを絞らずゲノム全体の配列を取得するため、後述する WES のターゲットであるエクソーム領域以外の変異も検出できるのが特徴です。
リシーケンス
リファレンスゲノムがある生物種のゲノムをシーケンスする。
リファレンスゲノムと比較することでシーケンスデータに含まれる変異の検出ができる。
WGS といえばリシーケンスのイメージがありますが、全ゲノム配列を対象としたシーケンス解析には de novo アセンブリーといった手法も存在します。
de novo アセンブリー
シーケンスデータのみでシーケンスしたゲノムの配列を構築する手法。
全エクソーム解析(WES、 Whole Exonome Sequencing)
ゲノム全体を対象とした WGS に対し、ゲノム中のタンパク質をコードする領域(エクソーム)のみをターゲットとした解析です。
シーケンシングする領域が限定されるため、シーケンスにかかるコストを抑えられます。
細菌叢解析
ヒトの腸内や自然界の土壌、海水といった環境に存在する微生物について、その多様性や組成を評価する解析です。複数の生物の DNA を含むサンプルを対象とした解析は メタゲノム解析 と呼ばれます。
メタゲノム解析
複数の生物の DNA を含むサンプルを対象とした解析。
サンプル内に存在するリボソーム RNA(16SrRNA・18SrRNA)の特定の領域の配列を網羅的に取得することで、その環境にいる生物種の分類ができます。
完璧な精度とは言えないものの、シーケンスデータを元に生物種の存在比を確認することも可能です。
▼メタゲノム解析についての記事も書いております
また、環境内のすべての DNA を対象にシーケンスする手法も存在します。
ターゲットを絞り込まない無作為(ランダム)というニュアンスからか、一般に ショットガンシーケンス と呼ばれます。
ターゲットを絞り込まないためシーケンス量が増え、コストも高くなりますが、環境内に存在する遺伝子を見つけることが出来るなどのメリットがあります。
ショットガンシーケンス
ターゲットの領域を絞り込まずサンプル内の DNA を無作為(ランダム)にシーケンスを行う。
エピゲノム解析
ヒストン修飾やメチル化といった DNA への修飾による遺伝子発現への影響を解析する手法です。こちらは遺伝のみではなく生活習慣などによる後天的な制御についても注目されています。
バイサルファイト法(Bisulfite sequence、BS-Seq)やクロマチン免疫沈降法(ChiP-Seq)によって前処理されたDNA断片について NGS を行い、修飾されている箇所を特定する方法が有名です。
バイサルファイト法(Bisulfite sequence、BS-Seq)
バイサルファイト処理によりメチル化以外の C 塩基が U 塩基に置換されることを利用して、リファレンスゲノムと比較することでメチル化塩基を特定する手法。
クロマチン免疫沈降法(ChiP-Seq)
クロマチン結合蛋白でクロマチン結合サイトのみ沈降させて集積し、集積した DNA のみのシーケンスを得ることでクロマチン結合サイトを特定する手法。
PictBio ではご紹介した上記の解析実績がございます。
これらの代表的な解析から「先行研究が見つからないんだけど、どうやって解析すれば良いか」といった事例の無い解析まで、解決方法を一緒に考えさせていただきます。
3. NGS装置の選び方
NGS では、シーケンスされた DNA 配列を シーケンスリード(リード) 、どれだけ多くのシーケンスリードを取得できるかを スループット と言います。
シーケンスリード(リード)
NGS でシーケンスした配列
スループット
NGS で得られるシーケンス配列(データ)の量
NGS のシーケンスリードは連続で読める長さでショートリード、ロングリードに大まかに分類されます。
一般にショートリードは 1base の精度が高くスループットが多いとされています。
一方、ロングリードは配列が長く得られることから配列どうしの関係性がつかみやすいという特徴があります。
リードの塩基数 | スループット | コスト※ | |
---|---|---|---|
サンガー法 | 400-900 bp | 低 | 中 |
NGS【ロング】 | 10-100 kbp | 高 | 中 |
NGS【ショート】 | 75-600 bp | 非常に高 | 低 |
※ 同量の配列を読むのにかかるコスト
解析の種類によって計算に必要なシーケンスリードの長さ(ショートリード or ロングリード)とデータ量(スループット)があり、それを元に適した NGS 装置を選択することになります。
解析の種類についてはページ上部でいくつかご紹介しております。
選択した解析の種類について
- 計算に使えるシーケンスリードの長さである(ショートリードやロングリード)
- 計算に必要なデータ量が取れるスループットである(対象領域のサイズ x カバレッジ)
代表的な装置の名前とその原理、得意とする領域について簡単にご紹介いたします。
装置の登場時期とスループットの違い(引用元:High-Throughput Sequencing Technologies)
図は 2015 年時点のもので、現在では機器やソフトウェアのアップデートによって性能が良くなっている可能性があります。
Illumina
スループットのスケール別に MiSeq、NextSeq、NovaSeq といった装置が出ております。
シーケンスの手法としては DNA を合成しながら読み取りを行う Sequence by Synthesis (SBS) と呼ばれる原理を採用しています。
他のシーケンサーと比較しても大量のスループットが得られる代わりに、シーケンシングリードの長さは 150bp~300bp 程度と短めです(ショートリード)。
各装置の対応するシーンの例は次のようになっています。
装置 | スループット | 主な利用シーン |
---|---|---|
MiSeq | 下 | 16sRNA 解析など、シーケンシング範囲がかなり限られた解析 |
NextSeq | 中 | RNA-Seq やエクソームシーケンスなど、シーケンシング範囲が限られた解析 |
NovaSeq | 上 | WGS 解析など、シーケンシング範囲が広い解析 |
Illumina シーケンサーのポイント
- ショートリードでスループット多め
- 求められるスループットに合わせて機種を選べる
- DNA 合成を行いながら配列を読み取る
Ion Torrent(Thermo Fisher Scientific)
ショートリードのシーケンサーで大量のスループットが得られます。
シーケンスの速度によって S5、S5 Plus、S5 Prime といったモデルが提供されており、スループットのスケールはシーケンス時に使用するチップ(消耗品)により変更可能となっています。
塩基が伸長する際の水素イオンによる pH 変異を読み取るといったシーケンスの手法を使用しています。
Ion Torrent シーケンサーのポイント
- ショートリードでスループット多め
- チップ(消耗品)でスループットを変えられる
- DNA 合成を行いながら配列を読み取る
PacBio
シーケンス長はロングリードに属し、PCR によるサンプル DNA の増幅を行わずにシーケンシングを行います。
そのため、PCR による増幅時のエラーや GC 含量の違いによる DNA 断片ごとのバイアスなどを意識する必要が無くなりました。
一つの配列をサークル状にし、繰り返し読むことで精度向上を行っています。
PacBio シーケンサーのポイント
- ロングリードでスループット少な目
- DNA 合成を行いながら配列を読み取る
- 繰り返し読み取ることで精度を上げている
Oxford Nanopore
他の多くのシーケンサーで使われている DNA 合成は行わず、ナノサイズの孔(nanopore)に DNA 断片を通し、測定されたイオン電流の変化を元に塩基配列を読むという手法を使用しています。
その原理のおかげで数十 kbp から数 Mbp の非常に長い配列長のシーケンスリードを得ることができます(ロングリード)。
他のシーケンサーのように光学装置を用いないため、小型、低価格であり、導入しやすい所が魅力です。
Oxford Nanopore シーケンサーのポイント
- ロングリードでスループット少な目
- DNA を孔に通して電流の変化で配列を読み取る
- 機械のサイズが小さく安価
PictBio では様々な装置から取得したシーケンスリードの解析実績がございます。
「どのシーケンサーが適しているのかわからない」といった時や、その前の実験デザインについてもご相談いただけます。
4. NGS解析にかかるコスト
NGS 解析には次のステップがあります。
(1) サンプルの調製
(2) シーケンス
(3) シーケンスデータの解析
「(1) サンプルの調製」は研究ごとに異なるとして、「(2) シーケンス」「(3) シーケンスデータの解析」についてお話します。
シーケンスにかかるコスト
「(2) シーケンス」にかかるコストついては次のようなデータがあります。
DNA Mega base 当たりのシーケンスコスト(引用元:DNA Sequencing Costs: Data)
次世代シーケンサーの登場後も徐々にコストダウンが進んでおります。
データ量あたりだと実際にかかる価格がわかりづらいので、ヒトゲノムで見てみます。
ヒトゲノムのシーケンスコスト(引用元:DNA Sequencing Costs: Data)
必要なデータ量は生物種(ゲノムサイズなど)や解析の種類によって異なります。
解析の種類についてはページ上部でいくつかご紹介しております。
NGS 装置によっても試薬などが異なる面で価格が変わってきます。
本体は(実験の機器はいずれもそうかとは思いますが)何度も使い続ける場合を除き気軽には導入できない価格のため、外注になることが多いと思います。
その場合、もちろん外注先によるため、ざっくり「シーケンスは十万円前後~」と記載しておきます。
ただし、Oxford Nanopore のシーケンサーのみは数万円で手に入るため手が出しやすくなっています。
データ解析にかかるコスト
「(3) シーケンスデータの解析」にかかるコストついては計算機の他、計算機を使うための知識が必要となります。
次世代シーケンサー(NGS)で得られるのはあくまで塩基配列なのと、それを手作業ではとても計算できない程度の量が得られるため必須の工程となっています。
計算機の準備
小さいゲノムであるなど解析対象が小さいといったときや、大量計算の必要ない解析であれば Mac PC で解析されている方もいらっしゃいます。
学術機関であれば無料で利用できる計算サーバーも存在します。
計算機の知識
開発された解析ごとに計算方法が存在するため、場合によってはコマンド操作やプログラミング等も必要となります。
解析の種類についてはページ上部でいくつかご紹介しております。
人気の解析であれば GUI(画面操作ができるアプリケーション)もちらほら見かけるようになりました。
弊社では RNA-Seq 発現量比較データ作成サービス を無料で公開しております。
条件に合えば簡単な操作でご利用いただけます。
このようなサービスが無い場合は、やはり計算サーバーでの解析を実施することになります。
次世代シーケンサーに特化したデータ解析の受託サービスを展開している企業もあり、弊社もその一つです。
弊社のサービス HP はこちらです。
特長としまして、弊社ではサポートサービスに力を入れており、解析の提案~結果の解説なども可能でございます。
更新履歴
2023年04月12日 内容を大幅に更新
2021年07月07日 Qiita に移行
2018年09月27日 初版(HP ブログにて公開)> PictBio HP「解析メモ」