Get Started with Glow V1.0.0 - For Next Generation Genome Wide Analytics - The Databricks Blogの翻訳です。
サンプルノートブックはこちらからダウンロードできます。
人口規模における遺伝子関連解析
近年、ゲノミクスデータ、特に研究者が無料でどこからでも利用できるイギリスのBiobankのような幾つかのデータセットが爆発的に増大しています。遺伝子発見、研究、開発の優先度付け、乱数化された対照試験のようなインパクトの強いユースケースでゲノミクスデータが活用されています。これらのユースケースは次世代治療の開発に役立つことでしょう。
問題点:データから洞察を得るためには、データチームによって大規模分析を可能にする必要があります。大規模データへの対応には、データサイエンティスト、データエンジニアの深い技術スキルセットが必要になります。だからこそ、クラウドにおいてゲノミクスデータの分散処理を行う際にキーとなる課題を解決するオープンソースライブラリであるGlowバージョン1.0.0を発表できることを嬉しく思っているのです。
遺伝子関連解析における課題
遺伝子データは増加し続けるため、これらのデータの処理、格納、分析がボトルネックとなっています。課題には以下のようなものが含まれます:
- データの種類 様々なデータタイプの管理は頭の痛い問題となります。例えば、Biobankのデータには遺伝子、電子健康記録、医療機器、画像が含まれます。
- データのボリュームとスピード 遺伝データは膨大で増加し続けます。加えて、新たなデータが追加されるたびに分析を再実行し続けなくてはなりません。
- 柔軟性に欠ける分析 シングルノードのバイオインフォマティクスツールでは、ユーザーが大規模データに対して、インタラクティブな協働作業をすることはできません。遺伝データのフォーマットは圧縮、格納には最適化されていても、分析には最適化されていないかもしれません。バイオインフォマティクスのサイエンティストは、同じ民族あるいは異なる民族からフィルタリングを行いサンプルを取得します。固定的なフィルタリングは新たな発見の妨げとなります。
Glowのご紹介
Glowは人口規模での遺伝データを操作するためのオープンソースのツールキットです。このツールキットは、大規模データ処理、機械学習のための統合分析エンジンであるApache Spark™上にネイティブに構築されています。
- バイオインフォマティクスとビッグデータエコシステムの橋渡し Glowを用いることで、共通かつ可変のスキーマの元で、variant call format(VCF)、bgen、plink、Hailマトリクステーブルを取り込むことができます。ゲノミクスデータレイクを作成するために、変異体データはDelta Lakeに書き込まれます。これらのデータはGraphFramesのような分散機械学習アルゴリズムを用いて様々なデータソースとリンクされます。
- 大規模処理 GlowはApache Spark™とDelta Lake上にネイティブに構築されており、ユーザーは1ノード、10ノード、100ノードに拡張することができます。コンピュータのスケーリングはコード、ハードウェアの最適化よりも高速です。
- 遺伝関連研究のネイティブサポート Glowは、線形回帰、ロジスティック回帰のためのregenieと協調し、最大20までの表現型を同時にサポートします。これにより、フィルタリングすることなしに全てのデータを取り込み、ケースとコントロールの不均衡に対して制御を行うことが可能となります。GlowはPythonとpandasのユーザー定義関数で記述されているので、プログラミング知識のある生物学者であれば、例えば、gene burden分析やjoint variant分析にGlowを拡張することができます。
図1 Glowライブラリは三大クラウドで動作するDatabricksで実行できます。スターターノートブックはドキュメントから参照できます
図2 Glowのwhole genome regression(GloWGR)は既存のメソッドよりスケーラブルです
まとめ
Glowプロジェクトを通じてゲノミクスにおけるスケーリングの課題を解決するために、Regeneronの遺伝学センターとコラボレーションしました。バイオインフォマティクス、コンピューターに長けた生物学者、統計学関連の遺伝学者と研究者が一緒に、遺伝データ分析と後段の機械学習アプリケーションをスケールさせるために、あらゆるクラウドで動作するDatabricksのレイクハウスプラットフォームを活用できます。Apache Spark™とDelta Lakeにおけるゲノミクスの最初のユースケースは、人口規模の遺伝関連研究でした。そして、今では癌や発育障害などの新たなユースケースが見えてきています。
使ってみる
DatabricksでGlow V1.0.0を使ってみませんか。サンプルノートブックはこちらからダウンロードできます。詳細を知りたい方はprojectglow.ioを参照ください。