Azure 関連で、以下の対応に追われる感じの1日でした。
事象
Azure VM で ubuntu 18.04 systemd の特定バージョン?? を使用してると、アウトバウンド処理で Errorが発生する障害となりました、、
運用システムで20台以上が障害対象になった形です。
事象の参考
https://status.azure.com/ja-jp/status
対応
- Azure VMサーバ 再起動
- VMサーバにアクセスして、スクリプトを手動起動する (17台)
今後
「Ansible で自動化」
単純に1台とかならよいですが、運用システムですし復旧に時間をかけすぎるのも良くないかと。お客様にかかる信用問題ですし、迅速な復旧対応が必要です。
また、手動でコマンドの打ち間違いとかも単純に発生しそうです、、、
最後の方は、集中力も切れますしね。
関わっているプロジェクトでは、テストコード・CI/CD ツール も取り入れることができてないです。なので、改修コスト・メンテナンスもテストコードがないことで調査コストが高く、着手も難しい現状です!
課題は山積みですが、良い経験もできてるので引き続き進めていきます!
ありがとうございました!!!