AIOpsとは
運用のお仕事をしているとAIOpsというキーワードを耳にする事が増えてきたと思います。
この”AIOps”とは Artificial Intelligence for IT Operations の略で、IT運用にAI・機械学習を取り込む考え方を指しています。もともとガートナーが提唱した考え方で、下図のように”Big Data”と”Machine Learning”を中心に”Monitoring” ”Service Desk” ”Automation”のサイクルが回る仕組みとなっています。
![AIOps.png](https://qiita-user-contents.imgix.net/https%3A%2F%2Fqiita-image-store.s3.ap-northeast-1.amazonaws.com%2F0%2F333529%2Fcb086080-1ecc-9321-e48b-4bebe59a59a3.png?ixlib=rb-4.0.0&auto=format&gif-q=60&q=75&s=d0924c678569b103ccc314d1eb78a472)
かなり抽象的ですが、監視システムで収集した大量のログ・メトリクスをAI・機械学習で解析・分析し、アラートや障害の対応を自動処理する仕組みであると考えています。オンプレ物理マシンでシステム構築していた時は、アラートを検知しても時間をかけてログ調査する事ができてましたが、現在は監視対象が増えアラートノイズが多くてまともに確認できません。
結果、よくやるのはアラートを送信しないようにシステム側でフィルタする事ですが、障害の予兆や本当のアラートが送信されなかったという事にもなりかねません。そこで、全てのログを監視システムに送信し、AIにアラートを学習させていつもと違う場合に通知するなどの仕組みが必要になってきました。
大量のログ・メトリクスをAIに解析させるというのは分かりましたが、その後はどうすれば良いのでしょうか?
先ほどのガートナーの図では”Monitoring”の次は”Service Desk”になっています。検知したアラートをインシデント登録してITILに沿った管理に繋げます。そして最後は”Automation”でアラート処理を自動化するという流れになってます。
20年2月頃にフロリダで開催されたITExpoでAIOpsのセッションに参加していたのですが、AIOpsを実現させるには自動化が必要だとStackStateのCEOが講演していたのが印象的でした。
AIOpsの始め方
ガートナーがAIOpsの始め方について7つの方針を提示しています。
- 待たない
- 最初のテストケースを賢明に選択する
- 目指す方向を定め、提示する
- 自由に実験する
- IT部門の垣根を越えて人材を求め、活用する
- 可能なら標準化を行い、合理的ならモダナイズを行う
- 本格導入を構想する
私が一番重要だと考えているのは1つ目の待たないです。
ガートナーの記事と日本語訳を紹介しておきます。
おわり。