1
0

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?

More than 3 years have passed since last update.

TSUBAMEでRAscore用の環境構築したい

Last updated at Posted at 2021-09-21

概要

RAscoreと呼ばれる逆合成評価スコアを出すモデルをtsubameで動かしてみたかったので奮闘.もっと基礎の部分のやり方はもう一つの記事で書いているが,こっちは成功するまでの環境構築やらの道のりを覚書用で残していく.

第1章(?)学習済みモデルを動かしてみる

Anacondaとpipとモジュールで環境構築

公式に

事前トレーニング済みモデルを使用するには、次のバージョンを使用する必要があります。
python == 3.7
scikit-learn == 0.22.1
xgboost == 1.0.2
tensorflow-gpu == 2.5.0

と書かれているので,忠実に再現したいところ.
まずは公式に提示されているコマンドを使ってpython, rdkit(,ここには明示されていないがなぜか書かれていたtensorflowも)のインストールをクリア.

conda create --name RAscore python=3.7
conda activate RAscore
conda install -c rdkit rdkit -y
conda install -c anaconda tensorflow>=2.1.0 -y

以下が公式に書かれていない部分を奮闘してみた様子.随時追記.(2021/9/21)

conda install scikit-learn==0.22.1
pip install tensorflow-gpu==2.5.0
conda install -c conda-forge py-xgboost=1.0.2

tensorflow-gpuをインストールする際,tensorflowのバージョンと競合したのか?こんなエラーが出て泣いてしまった.大丈夫なのか..?今のところ問題はなさそうなので放置している.

ERROR: pip's dependency resolver does not currently take into account all the packages that are installed. This behaviour is the source of the following dependency conflicts.
tensorflow 2.2.0 requires gast==0.3.3, but you have gast 0.4.0 which is incompatible.
tensorflow 2.2.0 requires h5py<2.11.0,>=2.10.0, but you have h5py 3.1.0 which is incompatible.
tensorflow 2.2.0 requires scipy==1.4.1; python_version >= "3", but you have scipy 1.7.1 which is incompatible.
tensorflow 2.2.0 requires tensorboard<2.3.0,>=2.2.0, but you have tensorboard 2.6.0 which is incompatible.
tensorflow 2.2.0 requires tensorflow-estimator<2.3.0,>=2.2.0, but you have tensorflow-estimator 2.5.0 which is incompatible.
aiohttp 3.6.3 requires yarl<1.6.0,>=1.0, but you have yarl 1.6.2 which is incompatible.

(2021/11/09 追記)
別記事でanacondaを入れ直し環境構築し直した際,好奇心で tensorflow-gpu → tensorflow の順にインストールしてみたところ,上記のエラーは出なかったものの,逆にpythonファイル実行時に

error
AttributeError: module 'tensorflow.python.keras.utils.generic_utils' has no attribute 'populate_dict_with_module_objects'

というのが出てしまい,むしろダメだった.(pipとcondaの依存関係がバグっているらしい)
tensorflow → tensorflow-gpu の順でやるのが丸いみたいです.

失敗

さて,以下の設定でモジュールを読み込むようスクリプトを書いて投げてみた.なお,gputest.pyも掲載しておく.(ちなみに各々のモジュールの意味はよくわかっていない.)

失敗スクリプト
# !/bin/bash
# $ -cwd
# $ -N gputest
# $ -l q_node=1
# $ -l h_rt=0:5:0
# $ -V


. /etc/profile.d/modules.sh
module load cuda cudnn

python3 ./gputest.py
gputest.py
import tensorflow as tf
print(tf.test.is_gpu_available())

すると見事エラーが出た.ぴえん.GPUが動かねえ〜〜〜

解決策

まずはcudaのバージョンがあっていないことがエラー文 W tensorflow/stream_executor/platform/default/dso_loader.cc:64] Could not load dynamic library 'libcudart.so.11.0'; dlerror: libcudart.so.11.0: cannot open shared object file: No such file or directory;より判明.
インストールするバージョンをcuda/11.2.146にしてみた.

修正版
module load cuda/11.2.146 cudnn/8.1

これでなんとかなったっぽい.標準出力を確認するとTrueの文字が.やったぜ!

モジュール部分のまとめ

以下のようにバージョンを揃えることで,まずはGPUを動かすことに成功!

成功スクリプト
# !/bin/bash
# $ -cwd
# $ -N gputest
# $ -l q_node=1
# $ -l h_rt=0:5:0
# $ -V


. /etc/profile.d/modules.sh
module load cuda/11.2.146 cudnn/8.1

python3 ./gputest.py

しかしこれだけで半日かかってるの我ながらしんどいな.

RAscoreのリポジトリをクローンする

これも公式のものをコピペ.特に難しいことはないと思われる.

git clone https://github.com/reymond-group/RAscore.git
cd RAscore
python -m pip install -e .

まとめ(最終的に完成した環境の作り方と,それを利用したバッチスクリプト)

環境を作るコマンド

conda create --name RAscore python=3.7
conda activate RAscore
conda install -c rdkit rdkit -y
conda install -c anaconda tensorflow>=2.1.0 -y
conda install scikit-learn==0.22.1
pip install tensorflow-gpu==2.5.0
conda install -c conda-forge py-xgboost=1.0.2

テスト用のファイル

test.py
from RAscore import RAscore_NN #For tensorflow and keras based models
from RAscore import RAscore_XGB #For XGB based models

nn_scorer = RAscore_NN.RAScorerNN() 
xgb_scorer = RAscore_XGB.RAScorerXGB()

# Imatinib mesylate
imatinib_mesylate = 'CC1=C(C=C(C=C1)NC(=O)C2=CC=C(C=C2)CN3CCN(CC3)C)NC4=NC=CC(=N4)C5=CN=CC=C5.CS(=O)(=O)O'
result = nn_scorer.predict(imatinib_mesylate)

print(imatinib_mesylate)
print(result)

投げるジョブスクリプト

RAscore.sh
# !/bin/bash
# $ -cwd
# $ -N RAscore
# $ -l f_node=1
# $ -l h_rt=0:10:0
# $ -V


. /etc/profile.d/modules.sh
module load module load cuda/11.2.146 cudnn/8.1

source  ~/.bashrc
conda activate RAscore
export PYTHONPATH="/home/0/<学籍番号>/RAscore/RAscore:$PYTHONPATH"

python3 ./test.py
  • source ~/.bashrcexport PYTHONPATH="/home/0/<学籍番号>/RAscore/RAscore:$PYTHONPATH"で,pythonのモジュール検索パス(importで使うモジュールを検索する対象)を追加(RAscoreが2個あるのは,こうしないとうまく検索してくれなかったからであって,typoではないよ!!!!!!!!!)

結果

(RAscore) $ ~/RAscore> cat RAscore.o9774386
CC1=C(C=C(C=C1)NC(=O)C2=CC=C(C=C2)CN3CCN(CC3)C)NC4=NC=CC(=N4)C5=CN=CC=C5.CS(=O)(=O)O
0.99522984

やったあ〜〜〜〜〜〜〜〜〜〜〜〜!!

第2章・モデルの再トレーニングをしてみる(現在未完成)

ここまではすでに学習済みのモデルを動かしてみて「できた〜!楽しい〜〜〜!」する部分だったので,model_buildingの部分を動かして行ってみる.

環境構築

最初に作った環境RAscoreに,さらに追加でインストールする.

conda activate RAscore
cd ~/RAscore/RAscore
pip install -e .[retraining]    ##setup.pyがあるディレクトリ内で行うこと

なんかエラー吐かれちゃったけど大丈夫かしら.困った時のためにここに書き残しておこう

ERROR: pip's dependency resolver does not currently take into account all the packages that are installed. This behaviour is the source of the following dependency conflicts.
tensorflow 2.2.0 requires gast==0.3.3, but you have gast 0.4.0 which is incompatible.
tensorflow 2.2.0 requires h5py<2.11.0,>=2.10.0, but you have h5py 3.1.0 which is incompatible.
tensorflow 2.2.0 requires scipy==1.4.1; python_version >= "3", but you have scipy 1.7.1 which is incompatible.
tensorflow 2.2.0 requires tensorboard<2.3.0,>=2.2.0, but you have tensorboard 2.6.0 which is incompatible.
tensorflow 2.2.0 requires tensorflow-estimator<2.3.0,>=2.2.0, but you have tensorflow-estimator 2.5.0 which is incompatible.
Successfully installed Mako-1.1.5 MarkupSafe-2.0.1 ModifiedNB-0.2 PrettyTable-2.2.1 PyYAML-5.4.1 RAscore Send2Trash-1.8.0 alembic-1.7.3 argcomplete-1.12.3 argon2-cffi-21.1.0 autopage-0.4.0 backcall-0.2.0 bleach-4.1.0 cliff-3.9.0 cloudpickle-2.0.0 cmaes-0.8.2 cmd2-2.2.0 colorama-0.4.4 colorlog-6.4.1 cycler-0.10.0 dask-2021.9.1 debugpy-1.4.3 decorator-5.1.0 defusedxml-0.7.1 entrypoints-0.3 fsspec-2021.9.0 greenlet-1.1.1 importlib-resources-5.2.2 ipykernel-6.4.1 ipython-7.28.0 ipython-genutils-0.2.0 ipywidgets-7.6.5 jedi-0.18.0 jinja2-3.0.1 jsonschema-3.2.0 jupyter-client-7.0.3 jupyter-core-4.8.1 jupyterlab-pygments-0.1.2 jupyterlab-widgets-1.0.2 kiwisolver-1.3.2 locket-0.2.1 matplotlib-3.4.3 matplotlib-inline-0.1.3 mistune-0.8.4 nbclient-0.5.4 nbconvert-6.2.0 nbformat-5.1.3 nest-asyncio-1.5.1 notebook-6.4.4 numpy-1.19.5 optuna-2.9.1 packaging-21.0 pandocfilters-1.5.0 parso-0.8.2 partd-1.2.0 pbr-5.6.0 pexpect-4.8.0 pickleshare-0.7.5 prometheus-client-0.11.0 prompt-toolkit-3.0.20 psutil-5.8.0 ptyprocess-0.7.0 pygments-2.10.0 pyparsing-2.4.7 pyperclip-1.8.2 pyrsistent-0.18.0 pyzmq-22.3.0 seaborn-0.11.2 setuptools-git-1.2 six-1.15.0 sqlalchemy-1.4.25 stevedore-3.4.0 swifter-1.0.9 tables-3.6.1 terminado-0.12.1 testpath-0.5.0 toolz-0.11.1 tornado-6.1 tqdm-4.62.3 traitlets-5.1.0 wcwidth-0.2.5 webencodings-0.5.1 widgetsnbextension-3.5.1 xgboost-1.0.2

さらにSAscore,SCscore,SYBAもダウンロードする必要があるらしい.どこに何をおけばいいのやら.
とりあえずRAscoreディレクトリと同じ深さ(つまりホームディレクトリか.)のところで以下を行ってみる

conda install -c rdkit -c lich syba
git clone https://github.com/connorcoley/scscore

git clone https://github.com/rdkit/rdkit/tree/master/Contrib/SA_Scoreはできなかったが,rdkit内に入っているっぽいからかうまくパスさえ通せば動いた.詳しくは以下のファイル中の変更点にて.

ファイル中の変更点

RAscore/RAscore/model_building/descriptors.py


# SAscoreへのパスを通す部分#
###########################################################################
## 消した
# sys.path.insert(1, '/home/knwb390/Projects/other/')

## 追加した
import os
from rdkit.Chem import RDConfig
sys.path.insert(1, os.path.join(RDConfig.RDContribDir, 'SA_Score'))
import sascorer 
###########################################################################


# SCscoreへのパスを通す部分#
###########################################################################
## 消した
# sys.path.insert(1, '/home/knwb390/Projects/other/scscore/scscore')

## 追加した
sys.path.insert(1, '/home/0/<学籍番号>/scscore/scscore')
###########################################################################
RAscore/RAscore/model_building/builder.py
# SCscoreへのパスを通す部分#
###########################################################################
## 消した
# sys.path.insert(1, '/home/knwb390/Projects/other/scscore/scscore')

## 追加した
sys.path.insert(1, '/home/0/<学籍番号>/scscore/scscore')
###########################################################################

# SCscoreへのパスを通す部分2#
###########################################################################
## 消した
# elif conf['descriptor'] == 'SC_score':
#    sc_model = SCScorer()
#    sc_model.restore(os.path.join('/home/knwb390/Projects/other/scscore/', 'models', 'full_reaxys_model_1024bool', 'model.ckpt-10654.as_numpy.json.gz'))
#    train_data['descriptor'] = train_data['smi'].swifter.apply(descriptors.sc_score, sc_model=sc_model)
#    test_data['descriptor'] = test_data['smi'].swifter.apply(descriptors.sc_score, sc_model=sc_model)

## 追加した
elif conf['descriptor'] == 'SC_score':
    sc_model = SCScorer()
    sc_model.restore(os.path.join('/home/0/<学籍番号>/scscore/', 'models', 'full_reaxys_model_1024bool', 'model.ckpt-10654.as_numpy.json.gz'))
    train_data['descriptor'] = train_data['smi'].swifter.apply(descriptors.sc_score, sc_model=sc_model)
    test_data['descriptor'] = test_data['smi'].swifter.apply(descriptors.sc_score, sc_model=sc_model)
###########################################################################
RAscore/RAscore/model_building/example_classification_configs/XGBClassifier.json

# データセットと出力先へのパスを通す部分#
###########################################################################
## 消した
# "train_data": "<path-to-dataset>/train.csv",
# "test_data": "<path-to-dataset>/test.csv",
# "out_dir": "<path-to-output-directory>/XGBClassifier/",

## 追加した
"train_data": "/home/0/<学籍番号>/RAscore/RAscore/data/uspto_chembl_classification_train.csv",
"test_data": "/home/0/<学籍番号>/RAscore/RAscore/data/uspto_chembl_classification_test.csv",
"out_dir": "/home/0/<学籍番号>/RAscore/RAscore/XGBClassifier/",
###########################################################################

投げるジョブ

Optimise(最適化パラメータを得るやつ)

Optimise_RAscore.sh
# !/bin/bash
# $ -cwd
# $ -N Optimise_RAscore
# $ -l f_node=1
# $ -l h_rt=0:10:0
# $ -V


. /etc/profile.d/modules.sh
module load module load cuda/11.2.146 cudnn/8.1

source  ~/.bashrc
conda activate RAscore
export PYTHONPATH="/home/0/<学籍番号>/RAscore/RAscore:$PYTHONPATH"

python3 ./RAscore/model_building/optimiser.py --config /home/0/<学籍番号>/RAscore/RAscore/model_building/example_classification_configs/XGBClassifier.json

返ってきたエラー

ModuleCmd_Load.c(208):ERROR:105: Unable to locate a modulefile for 'module'
ModuleCmd_Load.c(208):ERROR:105: Unable to locate a modulefile for 'load'
Pandas Apply: 100%|██████████| 179413/179413 [02:41<00:00, 1109.37it/s]
[I 2021-09-28 19:17:32,423] A new study created in memory with name: no-name-76bc416f-bcd8-452b-8941-e828da30a07f
[I 2021-09-28 19:18:49,473] Trial 0 finished with value: 0.8957814040179952 and parameters: {'max_depth': 16, 'n_estimators': 10, 'learning_rate': 0.1316205722941115}. Best is trial 0 with value: 0.8957814040179952.

ノードの占有時間が10分では短かったか?
RAscore/RAscore/XGBClassifilerに,best_param.jsonファイル(空)とvizディレクトリ(これも空)ができていた

(追記)
1時間で試した結果.

qacct
 qacct -j 9839792
==============================================================
qname        all.q               
hostname     r6i5n7              
group        <グループ名>
owner        <学籍番号>            
project      NONE                
department   defaultdepartment   
jobname      Optimise_RAscore    
jobnumber    9839792             
taskid       undefined
pe_taskid    NONE                
account      1 0 0 0 0 0 0 3600 0 7961637 8610 2266 0 0
priority     0                   
cwd          /home/0/<学籍番号>/RAscore
submit_host  login0              
submit_cmd   /apps/t3/sles12sp2/uge/bin/qsub -A <グループ名> Optimise_RAscore.sh
qsub_time    09/28/2021 20:34:13.752
start_time   09/28/2021 21:42:18.455
end_time     09/28/2021 22:42:14.054
granted_pe   mpi_f_node          
slots        28                  
failed       44  : execd enforced h_rt limit
deleted_by   NONE
exit_status  137                 
ru_wallclock 3595.599     
ru_utime     0.441        
ru_stime     0.097        
ru_maxrss    18068               
ru_ixrss     0                   
ru_ismrss    0                   
ru_idrss     0                   
ru_isrss     0                   
ru_minflt    16383               
ru_majflt    31                  
ru_nswap     0                   
ru_inblock   22104               
ru_oublock   16                  
ru_msgsnd    0                   
ru_msgrcv    0                   
ru_nsignals  0                   
ru_nvcsw     1865                
ru_nivcsw    10                  
wallclock    3604.695     
cpu          100452.150   
mem          2710104.746       
io           15.377            
iow          9.990             
ioops        38072               
maxvmem      191.360G
maxrss       0.000
maxpss       0.000
arid         undefined
jc_name      NONE
bound_cores  r6i5n7=0,0:0,1:0,2:0,3:0,4:0,5:0,6:0,7:0,8:0,9:0,10:0,11:0,12:0,13:1,0:1,1:1,2:1,3:1,4:1,5:1,6:1,7:1,8:1,9:1,10:1,11:1,12:1,13
stderr
cat Optimise_RAscore.e9839792 
ModuleCmd_Load.c(208):ERROR:105: Unable to locate a modulefile for 'module'
ModuleCmd_Load.c(208):ERROR:105: Unable to locate a modulefile for 'load'
Pandas Apply: 100%|██████████| 179413/179413 [02:41<00:00, 1111.54it/s]
[I 2021-09-28 22:01:11,359] A new study created in memory with name: no-name-ab4b9f8f-d909-4172-85e5-32f4a6686006
[I 2021-09-28 22:02:38,948] Trial 0 finished with value: 0.8936369423816949 and parameters: {'max_depth': 15, 'n_estimators': 13, 'learning_rate': 0.10142801006369723}. Best is trial 0 with value: 0.8936369423816949.
[I 2021-09-28 22:05:04,140] Trial 1 finished with value: 0.9040118215834714 and parameters: {'max_depth': 18, 'n_estimators': 20, 'learning_rate': 0.060157534825413875}. Best is trial 1 with value: 0.9040118215834714.
[I 2021-09-28 22:08:02,599] Trial 2 finished with value: 0.9286021482441964 and parameters: {'max_depth': 16, 'n_estimators': 30, 'learning_rate': 0.13418885573293332}. Best is trial 2 with value: 0.9286021482441964.
[I 2021-09-28 22:12:13,260] Trial 3 finished with value: 0.9206228960030088 and parameters: {'max_depth': 17, 'n_estimators': 40, 'learning_rate': 0.06472186390552723}. Best is trial 2 with value: 0.9286021482441964.
[I 2021-09-28 22:17:31,071] Trial 4 finished with value: 0.9237775194787264 and parameters: {'max_depth': 13, 'n_estimators': 72, 'learning_rate': 0.06248001343426943}. Best is trial 2 with value: 0.9286021482441964.
[I 2021-09-28 22:19:13,218] Trial 5 finished with value: 0.8829127462527868 and parameters: {'max_depth': 13, 'n_estimators': 19, 'learning_rate': 0.06717738219263095}. Best is trial 2 with value: 0.9286021482441964.
[I 2021-09-28 22:23:07,072] Trial 6 finished with value: 0.9284125436691983 and parameters: {'max_depth': 11, 'n_estimators': 64, 'learning_rate': 0.15408353131930197}. Best is trial 2 with value: 0.9286021482441964.
[I 2021-09-28 22:26:14,336] Trial 7 finished with value: 0.9303850137967631 and parameters: {'max_depth': 16, 'n_estimators': 32, 'learning_rate': 0.15772859703691697}. Best is trial 7 with value: 0.9303850137967631.
[I 2021-09-28 22:28:27,618] Trial 8 finished with value: 0.9162451992105278 and parameters: {'max_depth': 18, 'n_estimators': 18, 'learning_rate': 0.11886348460264903}. Best is trial 7 with value: 0.9303850137967631.
[I 2021-09-28 22:36:43,156] Trial 9 finished with value: 0.9448407271413602 and parameters: {'max_depth': 18, 'n_estimators': 84, 'learning_rate': 0.12752893666552984}. Best is trial 9 with value: 0.9448407271413602.

1時間でもダメだったぽい,h_rtのlimitがうんたらって書かれてる.ヤケクソで10時間くらいで投げてみてあとで確認しよう.
しかしbest_param.jsonファイル(中身あり)とbest_value.txtファイル(中身あり),vizディレクトリ(これは空のまま)ができていたのでなんか進捗はありそう.

(以下:2021/10/01追記)
24時間でもダメだった.

qacct
qacct -j 9840787
==============================================================
qname        all.q               
hostname     r1i5n3              
group        tga-science
owner        <学籍番号>            
project      NONE                
department   defaultdepartment   
jobname      Optimise_RAscore    
jobnumber    9840787             
taskid       undefined
pe_taskid    NONE                
account      1 0 0 0 0 0 0 36000 0 7962732 8610 2266 0 0
priority     0                   
cwd          /home/0/<学籍番号>/RAscore
submit_host  login0              
submit_cmd   /apps/t3/sles12sp2/uge/bin/qsub -A <グループ名> Optimise_RAscore.sh
qsub_time    09/29/2021 00:04:14.026
start_time   09/29/2021 00:08:13.483
end_time     09/29/2021 10:08:01.073
granted_pe   mpi_f_node          
slots        28                  
failed       44  : execd enforced h_rt limit
deleted_by   NONE
exit_status  137                 
ru_wallclock 35987.590    
ru_utime     0.457        
ru_stime     0.090        
ru_maxrss    18068               
ru_ixrss     0                   
ru_ismrss    0                   
ru_idrss     0                   
ru_isrss     0                   
ru_minflt    16403               
ru_majflt    31                  
ru_nswap     0                   
ru_inblock   22096               
ru_oublock   24                  
ru_msgsnd    0                   
ru_msgrcv    0                   
ru_nsignals  0                   
ru_nvcsw     1860                
ru_nivcsw    11                  
wallclock    36004.860    
cpu          1524406.970  
mem          41206378.130      
io           104.203           
iow          3.590             
ioops        152903              
maxvmem      197.530G
maxrss       0.000
maxpss       0.000
arid         undefined
jc_name      NONE
bound_cores  r1i5n3=0,0:0,1:0,2:0,3:0,4:0,5:0,6:0,7:0,8:0,9:0,10:0,11:0,12:0,13:1,0:1,1:1,2:1,3:1,4:1,5:1,6:1,7:1,8:1,9:1,10:1,11:1,12:1,13

なお.eファイルには73番目までのtrial記録が残っていた.

・・・
[I 2021-09-29 09:41:33,645] Trial 71 finished with value: 0.9478840983588939 and parameters: {'max_depth': 20, 'n_estimators': 92, 'learning_rate': 0.1893653388297648}. Best is trial 44 with value: 0.949024850170211.
[I 2021-09-29 09:51:44,921] Trial 72 finished with value: 0.9493667319505438 and parameters: {'max_depth': 20, 'n_estimators': 94, 'learning_rate': 0.17144090752253896}. Best is trial 72 with value: 0.9493667319505438.
[I 2021-09-29 10:02:20,424] Trial 73 finished with value: 0.9476459553726226 and parameters: {'max_depth': 20, 'n_estimators': 98, 'learning_rate': 0.17115129878538027}. Best is trial 72 with value: 0.9493667319505438.

XGBClassifierディレクトリ内部は一時間の時とほぼ同様.

ヤケクソなので次はノード4個で投げることにした.

(以下:2021/10/04追記)
24時間・f_node4個でもダメだった.Trial163までしか終わってない.
なんかミスってるのかな〜〜〜...

qacct
qacct -j 9849605
==============================================================
qname        all.q               
hostname     r5i0n7              
group        <グループ名>
owner        <学籍番号>          
project      NONE                
department   defaultdepartment   
jobname      Optimise_RAscore    
jobnumber    9849605             
taskid       undefined
pe_taskid    NONE                
account      4 0 0 0 0 0 0 86400 0 7971579 8610 2266 0 0
priority     0                   
cwd          /home/0/<学籍番号>/RAscore
submit_host  login0              
submit_cmd   /apps/t3/sles12sp2/uge/bin/qsub -A <グループ名> Optimise_RAscore.sh
qsub_time    10/01/2021 13:23:51.937
start_time   10/01/2021 13:24:16.810
end_time     10/02/2021 13:24:10.325
granted_pe   mpi_f_node          
slots        112                 
failed       44  : execd enforced h_rt limit
deleted_by   NONE
exit_status  137                 
ru_wallclock 86393.515    
ru_utime     0.446        
ru_stime     0.087        
ru_maxrss    18068               
ru_ixrss     0                   
ru_ismrss    0                   
ru_idrss     0                   
ru_isrss     0                   
ru_minflt    16359               
ru_majflt    31                  
ru_nswap     0                   
ru_inblock   22096               
ru_oublock   16                  
ru_msgsnd    0                   
ru_msgrcv    0                   
ru_nsignals  0                   
ru_nvcsw     1848                
ru_nivcsw    8                   
wallclock    86405.183    
cpu          3677005.390  
mem          99400239.014      
io           229.007           
iow          11.640            
ioops        296567              
maxvmem      190.124G
maxrss       0.000
maxpss       0.000
arid         undefined
jc_name      NONE
bound_cores  r5i0n7=0,0:0,1:0,2:0,3:0,4:0,5:0,6:0,7:0,8:0,9:0,10:0,11:0,12:0,13:1,0:1,1:1,2:1,3:1,4:1,5:1,6:1,7:1,8:1,9:1,10:1,11:1,12:1,13, r2i4n6=0,0:0,1:0,2:0,3:0,4:0,5:0,6:0,7:0,8:0,9:0,10:0,11:0,12:0,13:1,0:1,1:1,2:1,3:1,4:1,5:1,6:1,7:1,8:1,9:1,10:1,11:1,12:1,13, r2i7n7=0,0:0,1:0,2:0,3:0,4:0,5:0,6:0,7:0,8:0,9:0,10:0,11:0,12:0,13:1,0:1,1:1,2:1,3:1,4:1,5:1,6:1,7:1,8:1,9:1,10:1,11:1,12:1,13, r3i5n6=0,0:0,1:0,2:0,3:0,4:0,5:0,6:0,7:0,8:0,9:0,10:0,11:0,12:0,13:1,0:1,1:1,2:1,3:1,4:1,5:1,6:1,7:1,8:1,9:1,10:1,11:1,12:1,13

予約枠を使って4日間くらい動かしてみることに.

(2021/10/12追記)
約3日,f_node4個で終わった...!!
次のモデル構築に進んでみる.

Optimiseがうまくいったのでさらに投げるジョブ(多分モデル作るやつ)(イマココ@2021/10/12)

Build_RAscore.sh(予定)
# !/bin/bash
# $ -cwd
# $ -N Build_RAscore
# $ -l f_node=1
# $ -l h_rt=1:0:0
# $ -V


. /etc/profile.d/modules.sh
module load module load cuda/11.2.146 cudnn/8.1

source  ~/.bashrc
conda activate RAscore
export PYTHONPATH="/home/0/<学籍番号>/RAscore/RAscore:$PYTHONPATH"

python3 ./RAscore/model_building/builder.py --config /home/0/<学籍番号>/RAscore/RAscore/model_building/example_classification_configs/XGBClassifier.json --best_params <最適化をした時に指定した出力ディレクトリ>/best_params.json

1
0
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
1
0

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?