小ネタ
自社の環境、社風によってはちょっとした通信断でも上層部へ報告する必要がある。
クラウド環境においては、普段からこういった小さな障害への備えをユーザ側でしておかなければ、ベンダ側で原因調査ができない。
- クラウド環境においては、単一顧客の障害のみでは詳細な調査をしてくれない可能性が高い
- 複数の顧客が同一の障害を受けた場合は、クラウド側が原因と考えられるのでより詳細な調査をする
障害時に提出したい情報
- 関連するノードのリスト(ネットワーク、サーバなど)
- ノードのソースIPおよびディスティネーションIPの情報
- 通信断、パケットロス、レイテンシの問題などがあったことを証明できる情報(これが大事)
- 双方向トレースルート情報
- 双方向iperf情報
- 双方向MTR情報(オススメ)
- 可能な限り全システムで取得すると良い。網羅性がないとクラウド側の責任にできない可能性が高い
- 事象発生時に通信断が起きた証明が必要になるので、常時取得すること
- How do you collect MTR data?
参考:MTRの常時取得のススメ