0
0

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?

QA to AQ実践編 #6: システム品質アンドンで「異常の見逃し」を最小化する

0
Posted at

本記事は、CodeZine連載「QA to AQ」の副読本として、現場で回る実装手順に寄せて再構成したもの。
本文は独自解説を主とし、引用は必要最小限に絞っています(図版は原則自作運用を想定)。


0. 今回のゴール

ダッシュボードがあっても、誰も見なければ意味がない。
今回は、異常に即時気づくためのシステム品質アンドンを実装する。

アンドンの狙いはシンプル。

  • 状態を直感的に共有
  • 異常時の初動を標準化

1. アンドンとは何か

工場のアンドンと同じで、

  • 緑: 正常
  • 黄: 注意
  • 赤: 異常

を全員が一目で分かる形で表示する仕組み。
ソフトウェアでは、メトリクスとアラートをこの3色に落とす。


2. 何をアンドン化するか

最初は3つで十分。

  1. 可用性
  2. エラーレート
  3. 主要ユースケースの応答時間

これ以上増やすと、現場が色疲れする。


3. 色判定ルール(例)

  • 可用性
    • 緑: >= 99.95%
    • 黄: 99.90%〜99.95%
    • 赤: < 99.90%
  • エラーレート
    • 緑: < 0.5%
    • 黄: 0.5%〜1.0%
    • 赤: > 1.0%

ルールは事前合意して固定する。


4. 赤になった時の初動手順

アンドンで一番大事なのは表示じゃなく手順。

  1. 5分以内に担当アサイン
  2. 15分以内に一次切り分け
  3. 30分以内に暫定対応方針
  4. 24時間以内に再発防止タスク化

この時に重要なのは、初動の標準化と同時に、スプリント中の無秩序な割り込みを抑えること。
外乱を放置すると、アンドンが鳴っても改善が積み上がらない。

この流れをRunbookに書いておく。


5. 失敗パターン

失敗1: 常に黄色

  • 閾値が厳しすぎる
  • 対策: 現実値に合わせて再調整

失敗2: 通知疲れ

  • アラート過多
  • 対策: 重大指標に絞る

失敗3: 赤でも放置

  • 初動責任が曖昧
  • 対策: 当番制と責任者を固定

6. 2週間導入プラン

Week 1

  • 指標3つを選定
  • 色閾値を合意
  • 通知チャネルを統一

Week 2

  • 赤発生時の訓練(ゲームデイ)
  • 初動手順を改善
  • 品質バックログへ改善項目追加

7. KPI

  • 赤状態の平均継続時間
  • MTTA(初動開始までの時間)
  • 同種アラート再発率

8. まとめ

システム品質アンドンは、監視ツールの追加機能じゃない。
チームの初動を揃える運用設計

  • 表示を簡単にする
  • 閾値を合意する
  • 初動手順を固定する

これで見逃しと遅延は減らせる。


次回予告

次回は、運用しながら基準を賢く更新するために
**「着陸ゾーンの再調整と合意で『変化に耐える品質基準』を実現する」**を扱う。


参考文献


シリーズ内リンク

0
0
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
0
0

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?