注意
- 本書は抄訳であり内容の正確性を保証するものではありません。正確な内容に関しては原文を参照ください。
- 一部、訳者によって強調したり、注釈をつけています。
世界中の研究者は、これまで以上に膨大な種類、サイズのゲノムデータにアクセスできるようになっています。今や、ゲノミクスは大部分の研究者が利用できるようになっており、驚くべきペースで発見を推進しており、人々の生活を変化させています。この成長は、ゲノム試験と技術的改善の間における完璧な嵐によって引き起こされています。数十年の期間で、人体のゲノムシーケンシングのコストは数百万ドルから数百ドルに変化しました。
DNAシーケンス
DNA(デオキシリボ核酸)のヌクレオチドの正確な配列を決定するプロセス
- DNA シーケンスとは | Databricks https://databricks.com/jp/glossary/dna-sequence
- ヌクレオチド - Wikipedia https://ja.wikipedia.org/wiki/%E3%83%8C%E3%82%AF%E3%83%AC%E3%82%AA%E3%83%81%E3%83%89
- ヌクレオシドにリン酸基が結合した物質である。ヌクレオシドは五炭糖の1位にプリン塩基またはピリミジン塩基がグリコシド結合したもの。DNAやRNAを構成する単位でもある。
Microsoftにおいて、我々はゲノミクスのコミュニティが直面した課題を認識しており、すべての人にとってのゲノミクスコンピューティングを促進しうるエコシステムを構築したいと考えています。我々は3つの主要な領域にフォーカスしました。ゲノミクスデータにおけるR&D、大規模解析と迅速な自動化を実現するプラットフォームの実現、医療レベルで最適化されかつセキュアなパイプラインです。ゲノム解析を実行するためのHPC環境を活用できるようにしてくれたコアのAzureサービスの1つがAzure CycleCloudです。
大規模ゲノム解析には大スケールな計算資源が必要です
ある個人のゲノムのシーケンシング、あるいは少人数のグループのゲノムのシーケンシングであっても膨大な量のデータを生み出し、解析するためには膨大な量の計算パワーを必要とします。このデータを効率的に解析し、共有し、広く行き渡らせるために必要な計算パワーは、歴史的に見て研究機関がオンプレミスを活用していることから制約を受けていました。多くの研究者にとって、高パフォーマンスコンピューティング(HPC)クラスターの利用可能性の欠如は、彼らの研究のポテンシャルを妨害しており、高価な事前のインフラストラクチャへの投資や長期間のメンテナンスコストの脅威をもたらしていました。さらに、人口規模の健康状態の高精度表現を捕捉するためには、現在の研究活動はグローバル化される必要があり、ゲノムデータが世界中でセキュアに格納、共有、送信される必要があることを意味し、行動に洗練されたオンプレミスの環境であってもヘビーなものとなる計算需要を生み出していました。このようにして、適切な計算テクノロジーの欠如が、ゲノム研究コミュニティが容易にコラボレーションし、発見を共有することを阻害し、遅延させていました。
クラウドコンピューティングと、ヘルスケア業界における広範なデジタルトランスフォーメーションが、モダンなゲノム研究のブレークスルーのパワフルなイネーブラとなり、ゲノムサイエンスを前進させるために、研究機関や医療機関によって必要とされる計算需要に応える事実上無制限、かつ、より広範かつ安価に使用できる能力を解き放ちました。
AzureにおけるHPCとゲノム解析のためのAzure CycleCloud
Azure CycleCloudは、AzureにおけるHPC環境をオーケストレーション、管理するためのエンタープライズフレンドリーなツールです。Azure CycleCloudを用いることで、ユーザーはHPCシステムのインフラストラクチャを配備し、慣れ親しんだHPCスケジューラをデプロイし、いかなる規模でもジョブを効率的実行するためにインフラストラクチャを自動でスケールすることができます。Azure CycleCloudを通じて、ユーザーは異なるファイルシステムを作成し、HPCのワークロードをサポートするために、それらを計算クラスターにマウントすることができます。クラスターの動的スケーリングを用いることで、適切な時間と価格で必要に応じてリソースを手に入れることができ、Azure CycleCloudの自動化された設定によって、ITは最終的にはビジネスユーザーに高付加価値のサービスを提供することにフォーカスできます。
ワークフローマネージャ(Cromwell、Galaxy、Nextflow、Snakemakeなど)は、ゲノム解析をより効率的、スケーラブルにすることで、ゲノム解析を加速するために用いられます。例えば、典型的な次世代シーケンシングの機会は、実行ごとに12から192のサンプルの任意の箇所をシーケンシングでき、(NGSによって生成される生データであるBinary Base Call [BCL] と呼ばれる)出力ファイルを作成します。出力ファイルはいくつかのFastQファイル(FastQファイルは、ヌクレオチドのシーケンスと対応する品質スコアの両方を格納するテキストベースのフォーマットです)に変換されます。それぞれのFastQはBAMフォーマット(シーケンスデータを格納するためのバイナリーフォーマット)、そして、ジーンシーケンスのバリエーションを格納するためにバイオインフォマティクスで使用されるテキストファイルのフォーマットを指定するVariant Call Format (VCF) に変換される必要があります。バイオインフォマティシャンや臨床サイエンティストは、更なる解析のためにこれらのファイルを使用します。BCLからFASTQファイルへの変換ステップのシーケンスは、コモディティハードウェアの場合、数時間から数日かかることがあります。このタイムラインを劇的に短縮する一つの方法は、並列に実行される一連のジョブとしてこれらのステップを設定するためにAzure CycleCloudかAzure Batchを用いるというものです。
Azure CycleCloudを用いた2次解析による生殖細胞系列テストの高速化
Belfast Health and Social Care Trustは、イギリスにおける最大の総合医療社会団体です。彼らは、ベルファストにいる約34万人の市民に総合健康社会ケアを提供しており、北アイルランドの全てに数多くの地域専門サービスを提供しています。また、Belfast Trustは北アイルランドの病院における教育、トレーニングの主要なネットワークを形成しています。
Belfast Trustにおいて、北アイルランドにおける患者の症状を改善することを狙いとした次世代シーケンシングパネルとエキソームの包括的なポートフォリオの導入を通じて、生殖細胞系列の分子と身体的障害のテストを提供するサービスを開発し提供するために、Regional Molecular Diagnostics Service Northern Ireland (RMDS)が出資されました。
この戦略的取り組みの主要なゴールは、The Association for Clinical Genomic Scienceで示されているベストプラクティスを参考にして、ゲノム解析に要するターンアラウンドタイムを改善し、イギリス本土の研究所と連携した公平な分子サービスを提供することで高品質な患者ケアを強化することです。
最初に、生成されるゲノムデータの膨大なサイズと複雑性が、サービスを提供するに際しての主要な計算的な障壁になると考えられました。計算需要に応えるために、Belfast TrustはAzure上でSnakemakeワークフローマネージャーを用いた生殖細胞系列計算パイプラインを構築しました。この初期のパイプラインは、臨床エクソーム、全体的なゲノムよりもサイズの小さいターゲットのパネルのみを解析しました。生データをゲノム解析に必要なフォーマットに変換するために、単一の仮想マシン上で順番に実行されるようにジョブが設定されました。
より大きなサイズである臨床エクソームや全体のエクソーム、全体のゲノムを解析する際に問題が生じ、解析をより複雑かつ時間を浪費するものにしてしまいました。例えば、12サンプルのターゲットパネルの解析は二時間で終わることもありました。しかし、12サンプルの臨床エクソームの解析を完了するには48時間の実行が必要でした。この問題を解決するために、Belfast Trustは複雑性を引き下げる方法、より大規模なデータセットを解析する時間を見出すためにMicrosoft Consulting Servicesと取り組みました。パイプラインの実行を並列化するためにAzure CycleCloudが活用されました。
最終的なソリューションにおいては、サンプルのパイプラインジョブを解析するための複数台の仮想マシンで実行され、驚くべき結果をもたらしました。12サンプルのターゲットパネルの解析は20分で完了し、12サンプルの臨床エクソーム解析は4時間半で完了し、解析時間に6倍から10倍の改善が認められました。このソリューションで使用された仮想マシンは、以前使われていたのものよりも小さいサイズであり、全体的なパイプラインのコストを約3倍削減しました。
「Azure上でHPCを活用することで、生殖細胞系列の障害の試験における計算資源の障壁を乗り越えることで我々のサービスを拡張することができました。Microsoft Consulting Servicesとのコラボレーションを通じて、Belfast Trustはゲノムデータに対するデータ転送、パイプライン解析、3次解析、ストレージソリューションにおけるエンドツーエンドのAzure Cloudベースのソリューションを開発しました。このコラボレーションを通じて、そして、解析のためにAzure CycleCloudを活用することで、解析の時間を6倍から10倍削減し、解析のコストを約3倍削減しました。これによって、より多くの解析と検査を実行する能力を手に入れることができました。」- Shirley Heggarty Ph.D. FRCPath, Director, Regional Genetics Laboratory, Belfast City Hospital
この最適化されたソリューションによって、Belfast Trustはリソースを管理し、将来にわたってより効率的にシーケンシングの実行をスケールアップすることが可能となりました。
ゲノム研究は、診断の改善、患者に対してパーソナライズされた治療の処方のような高精度医療における中心的な役割を担うようになっており、人体の健康に対するより深い理解を助けてくれます。オンデマンドかつ場所に関係なく利用でき、安価なHPCサービスの進展は、目的に到達しようと前進を続け、ゲノミクスの領域における新たなブレークスルーを追い求める研究機関、テクノロジーパートナーにおける重要な役割を担うことになります。
より詳細は
Microsoft Genomicsソリューションをチェックしてください。
- Microsoft Genomics: Azureにおけるゲノムデータ解析の支援
- Azure CycleCloud: HPCクラスター、ワークロード管理
- Snakemakeワークフローを実装するためのAzure CycleCloudの活用に関する2パートの記事
- Azure for Health: 他の医療機関がどのようにAzureを活用しているのか