実施環境:
[root@testhost ~]# uname -a
Linux testhost 4.18.0-338.el8.x86_64 #1 SMP Fri Aug 27 17:32:14 UTC 2021 x86_64 x86_64 x86_64 GNU/Linux
[root@testhost ~]# cat /etc/redhat-release
CentOS Stream release 8
[root@testhost ~]# yum list installed | grep hinemos
hinemos-7.0-agent.noarch 7.0.1-1.el @@commandline
hinemos-7.0-manager.x86_64 7.0.1-1.el8 @@commandline
hinemos-7.0-web.x86_64 7.0.1-1.el8 @@commandline
0. 概要
ジョブは、必ずしも正常に動作するものではありません。
設定ミス、サーバの故障、リソースの枯渇など、様々な原因でエラーとなることがあります。
ではそのとき、 Hinemos で作成したジョブはどのように動作するのでしょうか。
今回は Hinemos のジョブについて、エラー時の動作に関する設定を見ていきます。
1. 今回使用するジョブ
今回使用するジョブは、以下の通りです。
1.1. ジョブユニット
- ジョブ ID :
job_unit_00
- ジョブ名:ジョブユニット_00
1.2. ジョブネット
- ジョブ ID :
jobnet_00
- ジョブ名:ジョブネット_00
1.3. ジョブ
1.3.1. 1 番目のジョブ
- ジョブ ID :
job_01
- ジョブ名:ジョブ_01
- 起動コマンド:
echo "01" >> /tmp/00.log
1.3.2. 2 番目のジョブ
- ジョブ ID :
job_02
- ジョブ名:ジョブ_02
- 起動コマンド:
echo "02" >> /tmp/00.log
- 待ち条件 - 名前:ジョブ(終了状態)
- 待ち条件 - ジョブ ID :
job_01
- 待ち条件 - 値:正常
1.3.3. 3 番目のジョブ
- ジョブ ID :
job_03
- ジョブ名:ジョブ_03
- 起動コマンド:
test -f /tmp/00.txt
- 待ち条件 - 名前:ジョブ(終了状態)
- 待ち条件 - ジョブ ID :
job_02
- 待ち条件 - 値:正常
/tmp/00.txt
が無ければ、コマンドが戻り値「 1 」を返してこのジョブがエラー終了します。
(厳密には、デフォルトの設定だと戻り値「 1 」の場合の終了状態は「警告」という扱いになります。)
1.3.4. 4 番目のジョブ
- ジョブ ID :
job_04
- ジョブ名:ジョブ_04
- 起動コマンド:
echo "04" >> /tmp/00.log
- 待ち条件 - 名前:ジョブ(終了状態)
- 待ち条件 - ジョブ ID :
job_03
- 待ち条件 - 値:正常
1.3.5. 5 番目のジョブ
- ジョブ ID :
job_05
- ジョブ名:ジョブ_05
- 起動コマンド:
echo "05" >> /tmp/00.log
- 待ち条件 - 名前:ジョブ(終了状態)
- 待ち条件 - ジョブ ID :
job_04
- 待ち条件 - 値:正常
2. 中止
上記の設定で、 3 番目のジョブがエラー(警告)となるようにしてジョブネットを起動してみましょう。
すると、以下のような結果となります。
3 番目のジョブがエラー(警告)となると、後ろの 4 番目と 5 番目のジョブは実行されないままエラー(異常)扱いとなり終了しています。
OS 側からファイルを見ても、 1 番目のジョブと 2 番目のジョブの分しかファイルに書き込みがなされていないので、 3 番目のジョブより後ろのジョブは実行されていないことがわかります。
[root@testhost tmp]# cat 00.log
01
02
[root@testhost tmp]#
デフォルトではこのように、「エラーとなったジョブの後ろのジョブは実行されない」ことになります。
エラーとなった際に「最初のジョブから実行をやり直したい」場合は、この設定を使用します。
3. 保留
では次に、 4 番目のジョブについて、「待ち条件」タブの「条件を満たさなければ終了する」のチェックを外して、先ほどと同様に 3 番目のジョブをエラー(警告)にしてみましょう。
結果は以下の通りです。
エラー(警告)となった 3 番目のジョブの後ろのジョブは、「待機」となっています。
ジョブネット全体も、まだ「実行中」という扱いになっています。
ではここで、 /tmp/00.txt
を作成して 3 番目のジョブが正常終了するようにして、 3 番目のジョブを再度実行してみましょう。
すると、最後のジョブまで正常に動作しました。
OS 側からファイルを見ても、全てのジョブ分の書き込みが正しく動作していることがわかります。
[root@testhost tmp]# cat 00.log
01
02
04
05
[root@testhost tmp]#
一方、ジョブネット全体を停止させることで、後ろのジョブの実行を取りやめることも可能です。
このように、「条件を満たさなければ終了する」のチェックを外すことで、「エラーとなったジョブの後ろのジョブは一旦実行を保留し、エラーの原因が解消されたら手動でジョブを再実行できる」ようにすることができます。
エラーとなった際に「エラーとなったジョブから実行をやり直したい」場合は、この設定を使用します。
なお、「条件を満たさなければ終了する」が機能するのは、この設定を入れたジョブがエラーとなった場合ではなく、この設定を入れたジョブの「前のジョブが」エラーとなった場合であることに注意してください。
4. スキップ
最後に、 4 番目のジョブについて、「待ち条件」タブの「条件を満たさなければ終了する」のチェックを入れた状態に戻したうえで、待ち条件の「値」を「 * 」に変更します。
この状態で 3 番目のジョブをエラー(警告)にしてみましょう。
結果は以下の通りです。
エラー(警告)となった 3 番目のジョブの後ろのジョブも、問題なく動作しています。
OS 側からファイルを見ても、 3 番目のジョブの後ろの 4 番目と 5 番目のジョブ分の書き込みが実行されていることがわかります。
[root@testhost tmp]# cat 00.log
01
02
04
05
[root@testhost tmp]#
このように、待ち条件の「値」を「 * 」に変更することで、「エラーとなったジョブの後ろのジョブも通常通り実行される」形となります。
エラーとなった際も「エラーとなったジョブの後ろのジョブを通常通り実行したい」場合は、この設定を使用します。
先ほどと同様、この設定が機能するのは設定を入れたジョブの「前のジョブが」エラーとなった場合であることに注意してください。
5. まとめ
エラーとなったジョブの後ろのジョブを
-
実行させたくない(中止)
⇒ デフォルト設定のまま -
エラーが解消するまで待機させたい(保留)
⇒ エラーとなったジョブの後ろのジョブの「待ち条件」タブの「条件を満たさなければ終了する」のチェックを外す -
そのまま実行させたい(スキップ)
⇒ エラーとなったジョブの後ろのジョブの待ち条件の「値」を「 * 」に変更