DatabricksにおけるADAMの使用

Last updated at 2022-05-24Posted at 2022-04-15

ADAM | Databricks on AWS [2022/1/5時点]の記事です。

本書は抄訳であり内容の正確性を保証するものではありません。正確な内容に関しては原文を参照ください。

ADAMはApache Sparkにおける遺伝子データ処理のライブラリです。BAM、SAM、CRAMファイルのような遺伝リードデータを処理するパイプラインの実装に用いられます。

DatabricksでADAMを使うには以下の手順を踏みます。

以下のSpark設定を持つDatabricksランタイムクラスターを起動します。

ini

# Hadoop configs
spark.serializer org.apache.spark.serializer.KryoSerializer
spark.kryo.registrator     org.bdgenomics.adam.serialization.ADAMKryoRegistrator
spark.hadoop.hadoopbam.bam.enable-bai-splitter true

クラスターライブラリをインストールします。
- Maven: org.bdgenomics.adam:adam-apis-spark3_2.12:<version>
- PyPI: bdgenomics.adam

Databricks 無料トライアル

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up