More than 5 years have passed since last update.

Galaxyで関連のメモ

Last updated at 2018-06-28Posted at 2016-11-17

概要

現在加筆編集中、よく調べていないことも書いてあります。

Galaxy 公式のサポートページ

デバッグ時に、実行したスクリプトなどを残すようにする

galaxy.ini の中で、 cleanup_job=neverを設定する

環境変数について

環境変数をたくさん使えそうなイメージがあったのだが、これは
docker galaxy stableを作るときだけかもしれない。

もしあれば、使えるものを調べたい

調べかけ。書きかけ

Docker Galaxy の compose の下などで

GALAXY_CONFIG_CLEANUP_JOB=${GALAXY_CONFIG_CLEANUP_JOB:-onsuccess}

のように設定をしていて、実際にdockerコンテナ内では、

GALAXY_CONFIG_CLEANUP_JOB
という環境変数に、値が保存されている。
Galaxyは実際にどこで取得しているのかを調査している

GalaxyConfigBuilder

def load_app_properties(
    kwds={},
    ini_file=None,
    ini_section="app:main",
    config_prefix="GALAXY_CONFIG_"
):

Galaxy を設定したり、ツール作ったり、実行環境を整備したときにチェックしたいこと

投入したジョブを停止したときに、きちんとプログラムが停止するか
一時停止はできるか？
一時停止後の再開はできるか？

job_conf.xmlなどについて。

job_conf.xmlの設定を変更したり、差し替えた時の注意点

job_conf.xmlを変更する設定をしていると、ジョブの投入に失敗することがある。
この時、ジョブをそのままにしておくと、そのまま続きが流れないことがある。
再起動しても、ジョブがたまるばかりな場合、ジョブを削除すると、その後のジョブが流れることがある。

設定など

Admin/Config/Jobs - Galaxy Wiki

また、tool ごとの設定など。

ImportError when running job on local cluster

metadataが展開されて困ること

[galaxy-dev] setting up the drmaa for sge

job_conf.xml のちいさなサンプルがある

Admin/Config/Performance/Cluster - Galaxy Wiki

パフォーマンス関連
Real Userとしてジョブを投げるなどもある。

job_conf.xml での docker 関連の記述について

パラメータの指定は、job_conf.xml の中で、docker_volumes で指定する

          <param id="docker_volumes">$defaults,/mnt/galaxyData/libraries:ro,/mnt/galaxyData/indices:ro</param>

docker galaxy stable のコンテナでは $defaults は以下のように展開される

Galaxyでの変数	展開されたディレクトリ	未確認だが、どのディレクトリか
$galaxy_root:ro	/galaxy-central	Galaxyのroot
$tool_directory:ro	/galaxy-central/tools/outputhostname	実行中のツールのディレクトリ
$job_directory:ro	/export/galaxy-central/database/job_working_directory/000/3	実行中のジョブのディレクトリ
$working_directory:rw	/export/galaxy-central/database/job_working_directory/000/3/working	workingディレクトリ
$default_file_path:rw	/export/galaxy-central/database/files	GALAXY_CONFIG_FILE_PATH

docker コンテナで、ジョブを実行するときに、データが見れないときに確認すること

見せたいファイル、または、そのファイルのあるディレクトリが、リンクであるかを確認する。
リンクである場合、それが docker コンテナから見ることができる位置なのかも確認する。

Sun GridEngine(SGE)関連

ツールの作成

はじめようツール開発を読むのが良い。
そこにある、hellogalaxyのサンプルがわかりやすい。

config/tool_conf.xml

に追加する方法が書いてある

interpreterの説明なども参考にした。

Admin/Tools/AddToolTutorial - Galaxy Wiki

最新はこちらをみたほうがよい？
planemoの使い方とか

Tool Integration Short Tutorial - ifb

Galaxy IUC を見ていたら見つけた。

Best Practices for Creating Galaxy Tools — Galaxy IUC Standards and Best Practices 0.1 documentation

planemo の仮想マシン環境

Virtual Appliance — Planemo 0.55.0.dev0 documentation

toolのXMLの書式

pythonのTemplate Engine である cheetah が使われているとのこと

Cheetah User’s Guide — Cheetah - The Python-Powered Template Engine

git cloneしてきてすぐに run.sh をしたときに使われる tool_conf.xml

実際にはこれが使われているようだ。

config/tool_conf.xml.sample

おそらくファイル名を変更したほうがよさそうではある。

config/tool_conf.xml

ツールはうまく動いているようだが赤くなってエラーになっている場合

終了ステータスコードが０になっているか？
標準エラーになにか出力されていないか？（ちょっとでも出力されると、エラーと判定される）

実際に判定している部分

おそらくここ

galaxy/output_checker.py at c78a23cb873cf5cbcf177cfa7052ae6dad506eea · galaxyproject/galaxy

おそらく、テストコード

galaxy/test_job_output_checker.py at c78a23cb873cf5cbcf177cfa7052ae6dad506eea · galaxyproject/galaxy

WORKAROUND

XMLのなかのツールを実行する部分で、全部標準出力にする。

2>&1

これをつけて回避できなくはない。

ただし本当のエラーを見落としかねない

perl の WORKAROUND

perl の Warning ならば、-X で解決できるケースもある。

perl -X

TODO

ジョブを止めた時の処理に関する扱いはあるか？

ツールが表示されない

きちんと、タグをとじていないとか、
xmlとしてまずい形式だとよみこまれないようだ。

CDATAをつかったほうがよさそうだけど

気をつけるのは、

閉じタグ
コメントの中の -- とハイフンが２つあるとき
左にひらいている記号

管理者向けガイド

Admin - Galaxy Wiki

Tool xml

Galaxy tool schema document

tool inputs conditional

tools inputs conditonal

Sun Gridengine

stderr に何か出力されると、エラーになる？

training

A collection of training material from offered Galaxy courses

Galaxy Server administration

Database の構造

Galaxy Database Schema

WebAPI serverside

lib/galaxy/webapps/galaxy/api

API 使ったサンプル

API sample

API を叩くライブラリ bioblend

python でコードがかけるならば

galaxyproject/bioblend: A Python library for interacting with CloudMan and Galaxy API

API を叩くライブラリをラップしたもの parsec

bioblend をラップしたコマンドラインツール

galaxy-iuc/parsec: Access Galaxy at the speed of light with automatically generated BioBlend wrappers

lint

snelis/tox docker hub

tox -e py27-lint

galaxy .travis.yml

Makefile

ここで、tar.gzなどを作っていると思われる。

(dev/Makefile)[https://github.com/galaxyproject/galaxy/blob/dev/Makefile]

追記2017-01-11
そうではないようで、新しいブランチを作ったりするもののようだ

古いGalaxy Dockerで、起動停止をすると、データが消えるとき

postgresqlのデータが、消えることがある。
そのときは、

/etc/postgresql/9.3/main/postgresql.conf

data_directory = '/var/lib/postgresql/9.3/main/'

この行を削除するとよい。

参考

remove data directory from the provision file · bgruening/docker-galaxy-stable@8086233

コンフィグの読み込みについて

galaxy/config.py at master · galaxyproject/galaxy

実例のメモ

GALAXY_CONFIG_CLEANUP_JOB=${GALAXY_CONFIG_CLEANUP_JOB:-onsuccess}

のように設定をしていて、実際にdockerコンテナ内では、

GALAXY_CONFIG_CLEANUP_JOB

に、値が保存されている。
実際にGalaxyのどこで取得しているのかを調査している
https://github.com/galaxyproject/galaxy/blob/dev/lib/galaxy/config.py

GalaxyConfigBuilder

def load_app_properties(
    kwds={},
    ini_file=None,
    ini_section="app:main",
    config_prefix="GALAXY_CONFIG_"
):

job_config_file job_conf.xml の読み込みについて

job_config_file の定義は、上のサイトにでている

galaxy/init.py at bb5d450b32afca22b666095e9ea4482f08647e3d · galaxyproject/galaxy

Galaxy からジョブが投入できない

クラスタ環境にジョブを投入するには、１つは実行ノードが起動している必要があるようだ。

下記のスレッドをみると、CloudManでもそうだったようです。

Galaxy Development List Archive - CloudMan: Autoscaling =Unable to run this job due to a cluster error

ジョブスケジューラにジョブをなげたら "The cluster DRM system terminated this job"

以下に書いてある。

Trinity Galaxy FAQ

大抵は wall time だろうとのこと。

ツールごとに、実行する場所を変えたい

job_conf.xml で指定する

例、ことなるキューになげるサンプル

<?xml version="1.0"?>
<job_conf>
    <plugins workers="8">
        <plugin id="sge" type="runner" load="galaxy.jobs.runners.drmaa:DRMAAJobRunner">
            <param id="drmaa_library_path">/usr/lib/gridengine-drmaa/lib/libdrmaa.so.1.0</param>
        </plugin>
    </plugins>
    <handlers>
        <handler id="main"/>
    </handlers>
    <destinations default="cluster">
        <destination id="cluster" runner="sge">
            <param id="embed_metadata_in_job">False</param>
        </destination>
        <destination id="cluster_e1" runner="sge">
            <param id="nativeSpecification"> -q e1only </param>
            <param id="embed_metadata_in_job">False</param>
        </destination>
        <destination id="cluster_e2" runner="sge">
            <param id="nativeSpecification"> -q e2only </param>
            <param id="embed_metadata_in_job">False</param>
        </destination>
    </destinations>
    <limits>
        <limit type="registered_user_concurrent_jobs">1</limit>
        <limit type="anonymous_user_concurrent_jobs">1</limit>
        <limit type="destination_user_concurrent_jobs">1</limit>
        <limit type="destination_total_concurrent_jobs">1</limit>
        <limit type="unregistered_user_concurrent_jobs">1</limit>
    </limits>
    <tools>
        <tool id="e1onlyjob" destination="cluster_e1" />
        <tool id="e2onlyjob" destination="cluster_e2" />
    </tools>
</job_conf>

データのアップロードに関して

２GB程度までなら、公式のツール？でもよいようである。
あとは、wgetやcurlでとってきて、直接配置する。またはFTP(Galaxyの)にアップロードするようである。

Quota制限について

Quota

その他 Galaxy 公式サポート関連

公式のサポートページ

書きかけ、Galaxy デバッグ環境について

Galaxyのプロセスに対して、pdbをアタッチ、特にリモートからアタッチしたいことがある。
そんなときは、pdb-cloneが使えるかもしれない

デバッグしたいところに以下のコード（ただしそれをやる前にmainでやることがある、それについては、下に書いた）

from pdb_clone import pdb; pdb.set_trace_remote()

Docker Galaxy の場合、
galaxy webは、以下のもの、中身pythonスクリプト
ただしこのスクリプトはvirtualenvで動いている。
pdb-cloneをいれるには

source /galaxy_venv/bin/activate

virtualenv環境にはいっていることを確認してから

pip install pdb-clone

/galaxy_venv/bin/uwsgi
に、

from pdb_clone import pdbhandler; pdbhandler.register()

galaxy 起動後は pdb-attach
いかのオプションがなくても実行できたようにおもっている

--kill --pid PID

(galaxy_venv)root@19149b574344:/galaxy_venv# pdb-attach
Connected to uwsgi at ('127.0.0.1', 7935), pid: 1554.
> /galaxy_venv/bin/uwsgi(10)<module>()
-> if __name__ == '__main__':
(Pdb)