1. はじめに
多くの場合、組織でシステムを運用していく際には、運用監視やヘルスチェックを行っていると思います。特にコンピュート、IaaS部分の監視は需要が高いかと思います。運用を監視することで、パフォーマンスを最大化したり、コストを最適化することもできるため、柔軟なスケーリングが可能なクラウドではより運用監視やヘルスチェックが重要になります。
Oracle Cloud Infrastructure では、 Monitoring サービスを提供しており、メトリックやアラーム機能を使用してクラウドリソースを監視することが可能です。
なお、コンピュート・インスタンスやブロック・ボリュームなどの OCI リソースに対してモニタリングの機能はデフォルトで有効になっています。
本記事では、コンピュート・インスタンスを対象にして、性能メトリックの参照方法を理解し、問題が発生した場合のアラーム通知を行い、管理者/保守担当者へのメール通知を行います。構築イメージは以下の通りです。仮想マシンのCPU使用率が60%になった際に通知を行います。
今回は、OCI チュートリアルの内容に沿った形で進めていきますが、OCI チュートリアルとは OCI のコンソール画面の UI や Oracle Linux のバージョンが異なるので、少しだけ画面遷移やコマンドの実行結果が異なります。
2. 前提条件
- 作業を行うユーザーに対し、適当な権限(動的グループ、ポリシーなど)が与えられていること
- 仮想クラウド・ネットワーク(VCN)の設定が完了していること
- 監視対象となるオラクル提供イメージのコンピュート・インスタンスの構築が完了していること
3.手順
1. コンピュート・インスタンスの Oracle Cloud エージェントの設定
2. アラームの通知先の作成
3. アラーム定義の作成
4. 通知の確認
4. コンピュート・インスタンスの Oracle Cloud エージェントの設定
コンピュート・インスタンスをモニタリングするためには、Oracle 提供イメージを使い、モニタリングの有効化を行っている必要があります。
デフォルトでは、コンピュート・インスタンスへのモニタリングは有効になっています。
監視対象となるコンピュート・インスタンスの詳細画面内にある 「Oracle Cloudエージェント」 をクリックし、「コンピュート・インスタンスのモニタリング」が有効になっていることを確認してください。
5. モニタリング・メトリックの参照
メトリックを参照する方法は2通りあります。コンピュート・インスタンスの詳細画面とサービス・メトリックの画面から参照する方法があります。
5.1. コンピュート・インスタンスの詳細画面からの参照
OCI のコンソール画面から コンピュート -> インスタンス を選択し、監視対象とするコンピュート・インスタンスを選択し、インスタンスの詳細画面を開きます。
画面左下のリソースからメトリックを選択すると、インスタンスの CPU 使用率やメモリの使用率、ディスクのI/O、ネットワークの送受信量などの性能メトリックを参照することが可能です。
5.2. サービス・メトリックの画面からの参照
個別のリソースではなく、複数のリソースにまたがってメトリックを一覧で参照したい場合には、サービス・メトリックのページからまとめて参照することができます。
OCI のコンソール画面から 監視および管理 -> モニタリング -> サービス・メトリック を選択します。
サービス・メトリック画面の上部で、表示させたい対象のコンパートメントとメトリック・ネームスペースを選択します。
コンパートメントは、コンピュート・インスタンスを作成したコンパートメントを選択します。
メトリック・ネームスペースは oci-computeagent を選択します。
コンピュート・インスタンスの詳細画面と同様に、インスタンスの CPU 使用率やメモリの使用率、ディスクのI/O、ネットワークの送受信量などの性能メトリックを参照することが可能です。また、開始時間、終了時間を5分間隔で変更し、表示する範囲を変更できます。
6. アラームの通知先の作成
アラーム定義を作成し、メトリックの値が何らかの閾値に達した際、アラームを発砲して、通知を行うことが可能です。
ここでは、メールにて通知を行う設定を作成します。
OCI のコンソール画面から 開発者サービス -> アプリケーション統合 -> 通知 を選択し、通知画面を表示します。
トピックの作成ウィンドウで、必要事項を入力し、左下の「作成」をクリックします。
- トピックの作成
- 名前:任意
- 説明:(オプション)
作成したトピックの名前をクリックし、トピックの詳細画面を表示します。
トピックの詳細画面にある「サブスクリプションの作成」をクリックします。
「サブスクリプションの作成」画面で以下の項目を入力し、左下の「作成」画面をクリックします。
- サブスクリプションの作成
- プロトコル:電子メール を選択(デフォルト)
- 電子メール:通知先となるメールアドレスを入力
サブスクリプションを作成すると、状態は「保留中」 になっています。
設定したメールアドレスに Oracle Cloud から以下のような確認メールが送信されます。
メール内のURLをクリックして、状態を「アクティブ」にします。
URLをクリックすると、以下のような「Subscription confirmed」のページが表示されます。
コンソール画面に戻ると、サブスクリプションの状態が「アクティブ」に変わっていることを確認します。
7. アラーム定義の作成
次に、アラームの定義を作成します。
OCI のコンソール画面から 監視および管理 -> モニタリング -> アラーム定義 を選択し、アラーム画面を表示します。
「アラームの作成」ウィンドウで以下の項目を入力し、左下の「作成」ボタンをクリックします。
- アラームの定義
- アラーム名:任意
- メトリックの説明
- メトリックの範囲:メトリックのあるコンパートメントを選択
- メトリック・ネームスペース:oci-computeagent を選択
- メトリック名:CpuUtilization を選択
- 間隔:1分(デフォルト)
- 統計:Mean(デフォルト)
- メトリック・ディメンション
- ディメンション名:resourceDisplayName を選択
- ディメンション値:監視対象とするインスタンスの表示名を選択
- Trigger rule
- 演算子:次より大きい を選択
- 値:任意
- トリガー遅延分数:1
- アラームの重大度:クリティカル(デフォルト)
- アラーム本体 オプション:任意
- アラーム通知の定義
- 宛先サービス:通知
- コンパートメント:通知トピックのあるコンパートメントを選択
- トピック:先ほど作成したトピック名を選択
-
メッセージのグループ化:メトリック・ストリーム全体で通知をグループ化 を選択
-
メッセージの書式:フォーマットされたメッセージの送信 を選択
アラームが作成され、アラームが有効になっていることを確認します。
8. メールで通知されることを確認
アラームと通知の設定が完了したため、コンピュート・インスタンスのCPU使用率を上げて、メールで通知されることを確認します。
ここでは、stress コマンドでCPU使用率を上げます。
stress パッケージをインストールする準備をします。stress パッケージを含む EPEL リポジトリが有効になっているかを以下のコマンドで確認します。
[opc@hamorita-vm ~]$ sudo yum repolist all | grep -i epel
ol8_developer_EPEL Oracle Linux 8 EPEL Packages for Devel disabled
ol8_developer_EPEL_modular Oracle Linux 8 EPEL Modular Packages f disabled
ステータスが disabled になっている場合、yum-config-manager コマンドで enabled に変更します。
[opc@hamorita-vm ~]$ sudo yum-config-manager --enable ol8_developer_EPEL
ステータスが enabled に変更されたことを確認します。
[opc@hamorita-vm ~]$ sudo yum repolist all | grep -i epel
ol8_developer_EPEL Oracle Linux 8 EPEL Packages for Devel enabled
ol8_developer_EPEL_modular Oracle Linux 8 EPEL Modular Packages f disabled
stress パッケージをインストールします。
[opc@hamorita-vm ~]$ sudo yum -y install stress
stress コマンドでCPUに負荷をかけます。
[opc@hamorita-vm ~]$ stress -c 2 &
Top コマンドでCPU負荷が約100%になっていることを確認します。
コンソールメニューから 監視および管理 -> モニタリング -> アラームのステータス を選択し、先ほど作成したアラーム名をクリックします。アラームが起動していることを確認します。
アラームと通知の設定が正しくできていることが分かりました。
以上が、モニタリング機能による Compute のリソース監視とアラーム通知による動作です。