概要
気づいたものをメモしておく
バイオインフォマティクス以外のも集まりそうなので、タイトルなどは要検討か。
ツール
リストがあるので、ツールや、そのサイト、ドキュメントを探すのによいかもしれない。
ワークフローシステム
ワークフローシステムのリスト
200超えたそうです。
Existing Workflow systems · common-workflow-language/common-workflow-language Wiki
ワークフローシステムがたくさんあることを紹介しているスライド
CWLの中の人による紹介
ワークフローシステムの例
Common Workflow Language
CWL の Spec
CWL のワークフローを GitHub で探す
以下の方法で探すことができる。
Nextflow
Nextflow の Spec
あるのかわからないが、ドキュメントはこちら
Workflow Description Language WDL
Snakemake
Snakemake を使ったワークフロー
ツールのコンテナ化関連
BioContainers
BioContainers の Singularity のレポジトリ
specs
Best practice
Biocontainers の best practices となっていますが、一般的なものとしても使えるところが多かったように思います。
biocontainers のイメージなどの探し方
Bioconatinersは、biocondaにあるパッケージをコンテナにするプロジェクトで
だいたいdockerコンテナになっています。
ほとんどのdockerコンテナは、quay.ioで公開されていた気がします。
docker hubは、あまりにイメージが多いためだったか、ビルドが遅いからだったかで、
そんなにつかわれていなかったと記憶しています
Biocontainersは以下が公式サイトです。
https://biocontainers.pro/#/registry
コンテナ化されているかなどは、以下で探せます
https://biocontainers.pro/#/registry
また、Biocontainersのsingularityに変換されたものはこちらにあります。
Galaxyのアドレスになっていますが、biocondaとbiocontainersとgalaxyの中心人物は
たしか同一のひとだったとおもいます。
https://depot.galaxyproject.org/singularity/
バイオのツールを探すなら、
singularity hub で探すよりは、
biocontainersで、探してから、自分で変換 singularity pull
するのが速いかもしれません。
Manuscript about Ten simple rules to contenarized your bioinformatics software
Recomendations to contenarized your bioinformatics software
Docker とか Singularity なども書いてある
コンテナ一般の Best Practices
ツールごとの、入出力に関する定義
このツールを動かすには
- 入力がこの形式のファイル
- 出力がこの形式のファイル
みたいなのが、定義されているところを探しています。
ワークフローの途中でバリデーションしたり、
エディタのサポートなどに使いたいと思っています。
パラメータについても必要なのかもしれません。。
あれば、ぜひ見てみたいが、まだ見つけていないです。。。
ご存知の方がいらっしゃいましたら教えていただけるとうれしいです。
XML
WorkflowConversion/CTDSchema: Single location in which all CTD schemas are located
Common Tool Descriptors (CTDs for short) are XML documents that represent the inputs, outputs, parameters of tools in a platform-independent way.
Once a tool is represented in a CTD, it can then be imported into different workflow systems, such as Galaxy, KNIME.
See the samples folder for further information.
参考になりそうなプロジェクト
以下のプロジェクトなどを参考になりそう。
- Galaxy Community Hub
- Common Workflow Language
- Bioboxes
- Apache Taverna - Introduction
- Dockstore
- cwltool/README.rst at master · common-workflow-language/cwltool
これはどうかな?
入出力について触れられている気がする。
あとは、パイプラインなんかの考えもおもしろそう
テストデータについて
Dockstoreは、テストデータに関する記述もできそうである。
コマンドラインパラメータについて
こういう考え方もある。
ビッグデータに関するコーディング
Galaxy の bjorn さんによるコーディングガイド