ペンギンだよ。ゲノム解析よりのバイオインフォに興味があるよ。
中の人の正体は隠してないけど、積極的にオープンにしてないよ。
#Workflow Meetupって何?
https://github.com/manabuishii/workflow-meetup/wiki/Workflow-Meeup%E6%A6%82%E8%A6%81
『ワークフローシステム、再現性、自動化、アノテーション、自然言語処理、画像処理、AIの利用など、関連する様々な事柄について、知見を交換したり、技術を高めるための研究会です』
ということで、
簡単にバイオインフォ的な一連の解析処理(パイプライン)をみんなで楽に作れるパイプラインMakerみたいなのないかしらと探していたら、CWL(Common Workflow Language)の存在を知って、紛れ込んでみた。
#Common Workflow Languageって何?
https://www.commonwl.org/
https://qiita.com/manabuishiirb/items/9028086a93855c97d995
昨日(比喩的表現)知ったばかりなのでまったくわからない……
- パイプラインを、「入力がこれで、ツールはこれつかって、出力をここに出すとか」をYAML(か JSON)で実行するための仕様と実行系
- "Language"というより、一種の設定ファイル的な印象
- 何でもCWLで書き換えれる(事前処理から最終結果まで)とイメージするより、特に処理が固まって定型化してる部分を、再現性があり、他者にも解りやすい文法で表現するところに利がありそう
- 出力結果に応じた条件分離とか今の所CWLでできない事もままある。
#今日(文字通りの意味で)知った事ある? - snakemake https://github.com/joemphilips/Translate_Snakemake_Tutorial
- python3ベースのパイプライン作成ツールらしい
- pythonはcondaで何か入れるためにしか使った事ない
- makeは make allとmake cleanのために(
- EDAM Ontology http://edamontology.org/page
- バイオインフォで扱われるデータや用語の定義(オントロジーの)データベース
- 例えばmappingした時によく出てくるBAMファイルはこう定義されている http://bioportal.bioontology.org/ontologies/EDAM/?p=classes&conceptid=http%3A%2F%2Fedamontology.org%2Fformat_2572&jump_to_nav=true
- 何に使うかというと、BAMファイルはバイナリとか、数値はintとかよりもっときっちりフォーマット定義したい時に書く(ように見えた)
- Rabix Composer http://rabix.io/
- CWLをGUIで記述して実行できるツール。webアプリでなくて、Mac/Win/Linux用がある
- Seven Bridges Genomics
- ゲノム研究(特に医療関係)向けのクラウド型のプラットフォームを提供している会社。
- https://twitter.com/oraryotas/status/1042610297322782720
cwl-runner 使って見た
- cwl-runnerは、中の実行エンジンに関わらずCWLを実行するようにするラッパーだよ
- ふるーいMacのpython2.7系にpip入れて(参考:https://qiita.com/tom-u/items/134e2b8d4e11feea8e12 )
pip install cwlref-runner
しても、単純に入らなかったのでくじけたよ。 - デベロッパーツール入れないとだめかしら。
xcrun: error: invalid active developer path (/Library/Developer/CommandLineTools),
missing xcrun at: /Library/Developer/CommandLineTools/usr/bin/xcrun
- 現時点の実体は現時点ではcwltoolと同一だよ
- 明示的に--rm-tmpdirオプションつけてもディレクトリが消えないのは現時点でバグだよ