はじめに
年末年始も稼働する現場では、少人数、外部連絡の遅延、変更凍結が重なります。平時の手順が通用しない前提で、当番運用の実装レベルまで落とし込んだ携行可能な手引きを提示します。
テーマは人の安全と可用性の両立です。
1. 課題の定義(現状・制約・トレードオフ)
現状の課題は「判断の遅延」「通知ノイズ」「例外変更の承認経路不明瞭」です。制約は少人数体制と連絡遅延、変更凍結にあります。トレードオフはノイズ抑制と重大検知、凍結と緊急対応の両立にあります。
方針は次のとおりです。
- 判断時間を短縮する設計を最優先
- 休日専用プロファイル(閾値、承認、回避策)を別管理
- 人の安全(拘束上限、休憩、移動手段)を明文化
2. 仮説の提示と根拠(データ・比較・設計方針)
仮説A:人の判断時間を短縮できれば復旧は早い
根拠:遅延要因は承認待ち、連絡不能、ノイズ多発に集中
仮説B:年末年始プロファイルを別管理すれば誤検知と見逃しの両方を抑制できる
根拠:閾値と経路を休日専用に切替することで実運用に適合
仮説C:最小可決セット(MVS)を標準化すれば小人数でも戦える
根拠:検知→回避策→宿題化の最短ループで復旧時間を短縮
5 Whys(要約)
- なぜ、年末年始の障害は長引くのか
→ 少人数で判断が滞るため - なぜ、判断が滞るのか
→ 承認者や例外変更の経路が不明なため - なぜ、経路が不明か
→ 当番用Runbookが平時手順の転用のため - なぜ、平時手順をそのまま使うのか
→ 休暇特有の遅延、凍結、連絡不能を想定していないため - なぜ、想定していないのか
→ 年末年始プロファイルを別管理していないため
設計方針は、前倒しと例外経路の標準化、致命度ベースの通知、最小限の凍結です。
3. 実装または具体策(手順・運用設計)
当番体制(人を先に、技術を後に)
| 項目 | 内容 |
|---|---|
| 二重化 | 一次当番+二次当番。離席を見込んで重なり時間を設定 |
| 引き継ぎ | 前日 17:00 までに未解決チケット/既知回避策を1枚に集約 |
| 健康安全 | 拘束上限、休憩基準、深夜タクシー規定を明文化 |
監視・アラートの年末年始プロファイル
| 領域 | 設定/対応 | 補足 |
|---|---|---|
| ノイズ抑制 | フラッピング抑制/バースト抑制 | 致命度で経路分岐 (P1=電話, P2=チャット, P3=翌営業日) |
| 外形監視 | 閾値を一時調整 | 混雑による遅延/損失を考慮 |
| ダッシュボード | 当番用に1画面統合 | SLO, アラート件数, キュー長, コスト |
インシデント最小可決セット(MVS:Minimum Viable SOP)
| ステップ | 操作/内容 | 出力/記録 |
|---|---|---|
| 宣言 | /declare incident で発番 | 当番チャンネルに自動投稿 |
| 回避策 | フェールオーバ、キャッシュ延長、機能フラグ、CDNルート切替 | 手順カードに従い実施 |
| 記録 | 復旧時刻、影響、実施コマンド | 5行ログで残す |
変更凍結下の例外変更フロー
| 要素 | ルール |
|---|---|
| 許可基準 | P1 または 法令違反/セキュリティ重大のみ |
| 承認者 | 経営/情報セキュリティ責任者(平時と別系統) |
| 実行 | 構成スイッチから最小影響で。ロールバックはワンコマンド |
個人装備とワークステーション
| カテゴリ | 確認 | 備考 |
|---|---|---|
| 通信 | 主回線+テザリングの2経路 | 非常電源を準備 |
| 端末 | VPN/MFAの有効期限と接続テスト | 前日実施 |
| 作業環境 | 静かな通話/画面共有可能な場所 | 避難先を確保 |
| 生活 | シフト表に睡眠/食事を明記 | 人の安全が最優先 |
4. 再検証と評価(結果・示唆・次アクション)
評価指標と測定
| 指標 | 定義 | 測定タイミング |
|---|---|---|
| 平均復旧時間(MTTR) | 受信から復旧までの平均 | 当日〜翌営業日 |
| 致命度P1の一次到達時間 | 発生から一次対応開始まで | 当日 |
| 誤検知率 | 全アラートに対する誤検知割合 | 当日 |
| 期限切れゼロ達成率 | 権限/証明書の期限切れゼロ達成 | 期間集計 |
| 当番満足度 | 事後アンケート結果 | 翌週 |
示唆と次アクション
| 施策 | 内容 |
|---|---|
| Runbook短文化 | 当番用1枚版に集約し更新頻度を上げる |
| 休日プロファイル常備化 | 閾値/承認/回避策をテンプレとして保守 |
| 例外承認の定義 | 承認者と経路を明文化し常設 |
| 前倒し儀式化 | 接続/通話テスト、手順カード確認を当番24時間前に固定 |
おわりに
年末年始の運用は、技術よりも設計と準備が成否を分けます。当番Runbookの短文化、例外変更の承認系統、人の安全の確保の三点を押さえれば、最小人数でも十分に戦えます。
できるだけ安心して年末年始を過ごすためにも、早い段階から準備を進めましょう。
最後に付録として逆算カレンダーを置いておきます。今からでも間に合う部分だけでもかまいませんので、これを参考にしてみてください。
付録:2週間逆算カレンダー
| 日数 | タスク |
|---|---|
| -14日 | 権限/証明書/監視しきい値の棚卸開始 |
| -10日 | 当番表確定、例外承認者の連絡先固定 |
| -7日 | バックアップ復元リハーサル |
| -3日 | 当番Runbook更新、接続/通話テスト |
| -1日 | 最終告知、変更凍結、当番用ダッシュボード配備 |
| 当日 | 仕事納め手順 or 当番運用へ移行 |
| 明け初日 | 振り返りと宿題化 |
