はじめに
私はサーバやネットワークを監視するシステムの構築や運用管理の業務に携わってきました。
その最新情報を調べていると、AI+運用管理 というキーワードがよく出てくるようになり、どうしてもそこを避けては通れないなと思うようになりました。
私が所属しているユーザ会JIMUCではIBMのミドルウェアをメインに調査・研究を行っていますので、IBMのAIを使った運用管理製品であるCloud Pak for AIOpsについて調査を進めてきました。
今回はその調査結果についてまとめてみたいと思います。
Cloud Pak for AIOpsについて
コンポーネントについて
Cloud Pak for AIOpsは、2020年5月にリリースされた製品で、以下の画像のようなコンポーネントとなっていました。
※過去のリリースされたITSM製品の組み合わせになっているようでした。
コンポーネント間連携について
コンポーネント間では、以下のように連携を行っています。
・MetricManagerはNetcoolの機能であるProbeを使ってEventManagerへイベント転送を行う。
・NOIからAI ManagerへはKafkaを使ってイベントデータの取り込みを行う。
・AI ManagerはREST APIでTopologyから機器情報やネットワーク情報を取得する。
・AI ManagerはAPIでSlackやTeamsなどの外部ツールと連携する。
いろいろな方法でデータをやり取りしているのがわかります。
Cloud Pak for AIOpsの最新の構成(4.2.1)
以前は従来IBMが持っていた製品を組み合わせていましたが、最新のバージョンでは0ベースで以下のようなコンポーネントとなっています。
予兆検知機能について
AIOpsの機能の中に予兆検知という機能がありますが、従来の監視では触れることがなかったため、どういう動きをするのか詳しく調べてみました。
Cloud Pak for AIOpsの予兆検知機能は、性能データを含むCSVファイルやデータベースから情報を取込みます。
※CSVは過去データの分析に向いています。リアルタイム分析を行う場合は、DBと連携が必要になります。
仕組みとしては、以下のようになります。
・取り込んだデータ(最低過去1週間分)をもとに正常パターンを作成
・そのパターンから外れた値を検知したらアラートを通知する
・正常パターンは1日ごとに更新される
・単一データだけではなく、複数データ間の相関関係からも異常を検知できる
まとめ
Cloud pak for AIOpsを使うと運用方法が以下のように変わると思われます。
・閾値監視
過去の経験から手動で設定
→ 運用しながら自動設定
・予兆検知
保管した性能データを手動でグラフ化し傾向を予想
→ リアルタイムでグラフ化し、自動的にイベント通知
・障害対応
あらかじめ作成した障害時フローに従って運用手順を実施。
作業は運用拠点で作業者が実施。
→ AIにより自動的に運用手順をリストアップ。
Runbookで定型作業をリモート対応or自動的に回復処理実行。
・イベント画面
1つの障害に対して複数イベントが発生し、大量のイベントを確認
→ グルーピングにより関連するイベントは一つのインシデントに集約。
外部連携
主にメール
→チャット・メールなど多くの手段有り。メッセージ内のリンクから
監視システムにアクセスし、詳細情報を参照。
Cloud pak for AIOpsだけでなく、AIや機械学習を使った運用管理というシステムは今後増えていくと思われます。
今後もAIを使った運用製品をどのように利用していけばいいか調査を進めていきたいと思います。