Oracle Cloud:Monitoringのリソース閾値検知でアラーム通知させてみてみた

Last updated at 2019-04-18Posted at 2019-04-11

クラウドリソースの状態、容量、およびパフォーマンスに関するリソースを監視して閾値を設定しメールなどでアラート通知できるのでやってみてます。

■CPUアラート設定

●設定

OCIコンソールの「モニタリング」項目にある「アラーム定義」をクリックし、
[アラームの作成]ボタンをクリックして作成

・設定項目
インスタンスのCPU使用率が80%になったら、Alart Mailで通知するよう設定

+ アラームの定義
	- アラーム名：自由に設定
	- アラームの重大度:Critical/Error/Warning/Infoから選択
+メトリックの説明
	- メトリック・ネームスペース：oci_computeegaent を選択
	- メトリック名：CpuUtilizationを選択
	- 間隔：1M(1分)を選択
	- 統計：Maxを選択
+メトリック・ディメンション
	- ディメンション名：resourceidを選択(RegionなどGroup単位でもOK)
	- ディメンション値：インスタンスのOCIDを設定
+トリガールール
	- 演算子："次より大きい"を選択
	- 値：80を設定
	- トリガー遅延分数：1を設定
+Notifications
	- トピックの作成をクリックし作成して作成したトピックを選択
	- トピック名
	- Subscription protocol：”電子メール”を選択
	- 電子メール・アドレス：管理者のメールアドレスを設定

●CPU負荷がけテスト

・yesコマンドを複数並列実行してCPU負荷を上げます

[opc@inst01 ~]$ yes > /dev/null &
	[1] 10740
[opc@inst01 ~]$ yes > /dev/null &
	[2] 10841

・負荷確認
CPU使用率が80%になるまで負荷をかけます

[opc@inst01 ~]$ top
	top - 10:54:58 up 26 days,  1:30,  2 users,  load average: 2.24, 0.72, 0.26
	Tasks: 117 total,   5 running,  60 sleeping,   0 stopped,   0 zombie
	%Cpu(s): 98.7 us,  1.2 sy,  0.0 ni,  0.0 id,  0.0 wa,  0.0 hi,  0.0 si,  0.2 st
	KiB Mem : 15117384 total, 14073676 free,   348496 used,   695212 buff/cache
	KiB Swap:  8388604 total,  8388604 free,        0 used. 14359740 avail Mem

	  PID USER      PR  NI    VIRT    RES    SHR S  %CPU %MEM     TIME+ COMMAND
	10841 opc       20   0  107968    732    656 R  50.2  0.0   0:17.05 yes
	10740 opc       20   0  107968    720    644 R  49.8  0.0   2:03.90 yes
	10838 opc       20   0  107968    636    560 R  49.8  0.0   0:18.91 yes
	10844 opc       20   0  107968    732    656 R  49.8  0.0   0:15.39 yes

●CPU負荷状況確認

アイコンが炎のマークに変わり閾値を超えていることを確認

●メール通知確認

アラート検知するとメールが発行されるので、発行されたか確認

■Instance Downアラート設定

ダウンしている可能性のあるリソースを検出するために、不在アラームの例を作成します。不在アラームは、（不在オペレータを使用して）不在メトリックをチェックするアラームです。

●設定

インスタンスが停止したら、Alart Mailで通知するよう設定
CPUアラート設定とことなるのは次の項目

+メトリックの説明
	メトリック・ネームスペース："oci_computeegaent" を選択
	メトリック名："CpuUtilization"を選択
	間隔："1M"(1分)を選択
	統計："Count"を選択
+トリガールール
	演算子："なし"を選択
	トリガー遅延分数：1を設定

●インスタンス停止テスト

OCIコンソールから対象インスタンスを停止
もしくは、コマンドで、shutdown -h now で停止

●インスタンス稼働状況確認

アイコンが炎のマークに変わり閾値を超えていることを確認

●メール通知確認

アラート検知するとメールが発行されるので、発行されたか確認

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up