1
0

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?

ぶっちゃけ、NW運用にAIなんて要らない? 現役エンジニアが機械学習を学ぶ『本当の理由』

1
Posted at

はじめまして、OZです。
普段はインフラエンジニアとして、企業のネットワーク基盤を支えています。
ログ調査やCLI操作が日常ですが、最近、新たな武器を手に入れるべく Kaggleに入門しました。

「インフラ屋がなぜAI?」と思われるかもしれませんが、日々の運用で感じる「ある限界」を突破したかったからです。

今回は、CLIの世界で生きてきた人間が、なぜ今Pythonを書き、統計学を勉強しているのか。
その理由をお話しします。

1. 【本音】正直、9割の業務で「機械学習」なんて必要ない

まず本音を言います。
日々のネットワーク運用において、機械学習やAIが必要になる場面は、普段の業務の 「9割」において存在しません。
なぜなら、障害検知にはすでに完成された監視ツール
が存在するからです。
Zabbix や Datadog、各種NMS(ネットワーク管理システム)が24時間365日動いています。
これらは SNMP や Syslog、Ping を用いて、「死活」や「閾値越え」を正確に検知してくれます。

・Pingが通らなければ、障害。
・インターフェースがDownすれば、障害。
・CPU使用率が90%を超えれば、アラート。

こうした白黒はっきりした事象に対して、わざわざ機械学習やAIが登場する幕はありません。
もし「Pingが落ちた」という検知にAIを使って、「このダウンは98%の確率で障害です」なんて推論をさせる必要はないのです。

既存のツールで検知し、自動化された手順(Ansible等)で復旧する。
これが最も確実でコストパフォーマンスが良い方法です。

2. 「閾値」という静的な監視の限界

私が機械学習の必要性を痛感したのは、RTの閾値設定に悩んだ時でした。
過去ログを分析して「ここなら安全」というラインを決めても、既存の監視ツールには構造的な限界があったのです。

まず、私たちが監視している数値は、SNMPのポーリング間隔(5分間など)における「平均値」に過ぎません。
機器の仕様上、データが平均化されている以上、瞬間的な変動を正確に捉えることは不可能です。

しかし、それ以上に致命的なのは、既存ツールには比較する脳みそがないことです。
ツールは「今、閾値を超えているか(0か1か)」は判定できても、「さっきより急減したか」「普段と比べて異常か」といった時系列を理解できません。

設定: 閾値 30Mbps以下は異常と検知
普段: 平均 500Mbps 流れている
現在: 平均 50Mbps に急落している(リンクダウンはしていない)

この場合、人間が見れば「明らかにおかしい」状態でも、ツールは「正常(閾値以上かつUp状態)」と判定してしまいます。
こうした「サイレントな異常」を検知するには、静的なルールベースではない、新しい仕組みが必要だったのです。

3. 業界のトレンドは「AIOps」へ

この人間がログを見て判断するには限界があるという課題に対し、『AIOps(Artificial Intelligence for IT Operations)という手法があります。

この手法は、簡単に言えば「膨大化・複雑化するITシステムの運用に、AI(機械学習)を取り入れて自律化しよう」**という動きです。
実際、私たちの身の回りでもこの変化は起きています。

Cisco Catalyst Centerでは機械学習を用いて、無線LANの干渉源を特定したり、トラブルの予兆を検知したりする機能が実装されています。

これらは魔法ではありません。
裏側で動いているのは「時系列分析」や「異常検知」のアルゴリズムそのものです。

ベンダーやクラウド事業者がこぞってAIを実装し始めている今、「中身は知らないけど、ツールがそう言ってるからヨシ」とするのか、「裏側のロジック(統計的な根拠)を理解して使いこなす」のか。
エンジニアとしての価値はそこで分かれると考えています。

4. 「勘」を「統計的有意性」で証明する

機械学習(統計学)を学ぶ最大のメリットは、これまでベテランエンジニアの「勘」に頼っていた部分を、「数字」で説明できるようになることです。

例えば、トラフィックが急減した際、「なんかグラフの形がおかしいです」と報告しても、「気のせいじゃない?」と言われたら終わりです。

しかし、機械学習の知識があればこう言えます。

「過去3ヶ月のトレンドと比較して、現在の低下は統計的に有意な乖離を示しています。これは誤差ではなく、明らかに異常です」

NW機器が教えてくれない「変化」を、自らの手で検知し、証明する。
これができれば、「原因不明の遅延」や「サイレント障害」に対して、後手ではなく先手で動くことが可能になります。

5. おわりに:ハイブリッドなエンジニアを目指して

9割の定型業務は、これまでの知識と自動化ツールで十分です。
しかし、残りの1割「複雑化した障害の予兆検知」や「根拠のあるキャパシティプランニング」において、機械学習は強力な武器になります。

CLIで機器と対話する楽しさはそのままに、これからはデータとも対話できるエンジニアを目指して日々精進していきます。

1
0
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
1
0

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?