はじめに
AzureにSRE Agentというものがあるのをご存じですか?
SREとはSite Reliability Engineering(サイト信頼性エンジニアリング)の略です。
インターネット検索で「Azure SRE」をしてもまだほとんどでてきませんので、まだまだ浸透はしていないようです。そんなAzure SRE Agentを一足早く触ってみたので、その結果です。
Azure SRE Agent
1 Azure SRE Agentの作成
名前とリソースグループ、管理対象リソースグループ等を設定してエージェントを作成します。
※エージェントの作成はサブスクリプションのオーナーしか作成できませんのでご注意ください。
2 Azure SRE Agentとのチャット
チャットは英語で行いますが、拙い英語でもきちんと回答してくれます。
VMを起動させてみます。
VMの状態をチェックしてくれて、起動させていいか聞いてきます。

「アクションの承認」を押すとVMの起動が実行されます。
※承認にはSRE AgentのAdmin権限が必要となります。SRE Agent作成時に付与してもらいましょう。

VMのログを確認するとSRE Agentによって起動されているのがわかります。

3 Azure SRE Agentでの監視
監視プランが以下のように作成されました。
今後 2 時間、5 分ごとに可用性とメトリクス(CPU%、ネットワーク受信/送信、ディスク読み取り/書き込み)を確認し、VM が利用不可になった場合、または直近 5 分間の CPU 使用率が 85% を超えた場合にアラートします。
「スケジュールされたタスク」タブを開くと、すでにタスクができてます!

ただし、アラートルールを見たらここには追加されていませんでした。
SRE Agent内で完結しているのでしょうか...(?)

4 まとめ
記事で取り上げた内容以外にも一通り触ってみましたが、チャットでやり取りしている途中にエラーで処理が止まったり、Connector の接続がうまくいかなかったりと、運用面で不自由に感じる場面が少なくありませんでした。現時点では、業務で本格的に活用するにはまだ早いという印象です。
もっとも、まだプレビュー版であることを踏まえると、今後の機能改善や安定性向上は十分期待できます。今後のアップデートに注目したいところです。
以上、簡単ですが「Azure SRE Agentを触る」でした。


