ADAM | Databricks on AWS [2022/1/5時点]の記事です。
本書は抄訳であり内容の正確性を保証するものではありません。正確な内容に関しては原文を参照ください。
ADAMはApache Sparkにおける遺伝子データ処理のライブラリです。BAM、SAM、CRAMファイルのような遺伝リードデータを処理するパイプラインの実装に用いられます。
DatabricksでADAMを使うには以下の手順を踏みます。
-
以下のSpark設定を持つDatabricksランタイムクラスターを起動します。
ini# Hadoop configs spark.serializer org.apache.spark.serializer.KryoSerializer spark.kryo.registrator org.bdgenomics.adam.serialization.ADAMKryoRegistrator spark.hadoop.hadoopbam.bam.enable-bai-splitter true
-
クラスターライブラリをインストールします。
- Maven:
org.bdgenomics.adam:adam-apis-spark3_2.12:<version>
- PyPI:
bdgenomics.adam
- Maven: