内容
Well-Architectedで何を言っているのかを図解化、噛み砕いて説明する内容となっています。
資料
運用上の優秀性の柱
とセキュリティの柱
についてまとめた資料になっていますが、今回は運用上の優秀性の柱
について記載します。
「運用上の優秀性の柱」の概要
AWSの運用以外にも適用出来そうな素晴らしい設計の原則
が5つあります。各柱の中にいくつか定義
と言うトピックがあり、設計の原則を実現するために具体的に何をやれば良いかの記載があります。運用上の優秀性の柱の場合は組織
、準備
、運用する
、進歩する
が定義されているので具体的に解説していきます。
組織
優先順位
組織の優先順位を明確に定義する必要があります。優先順位を付けないと運用するにもこれから何に力を入れて取り組んでいけば分からないためです。まず顧客ニーズがあり、制約条件を評価し、優先順位付を行なっていきます。例えばコンプライアンス要件(外部)の例としてクレジットカード業界であれば業界標準のPCIDSSに準拠するなどが挙げられます。内部環境、外部環境、機会、脅威を分析していくのでSWOT分析をやっている様な感じです。
運用モデル
組織の優先順位が決まったら、それを実行していくためにどの様な組織体系が必要か考えていきます。まず運用モデル2×2
というところで誰が何をやるかを定義したモデルがあります。これは責任者の明確化
やチーム間の関係
を理解するのに役立つものとして定義されています。
関係性と所有性
という箇所では一番重要なのは所有者・責任者を明確にするというところです。最初は責任が曖昧な方が上手くいくパターンもあるかと思いますが、企業が成長期、成熟期と成長していく中で職務分掌などが規定されて明確になっていくと思います。
組織カルチャー
優先順位付でやることが決まって、運用モデルの箇所で誰が何をやるかも決まりました。あとは実施する組織、チームのパフォーマンスを最大限に発揮出来る組織文化が重要になってきます。組織として推進
を行い、従業員に適切なリソースと権限
を与え、積極的なコミュニケーション
を取り、スキルアップ
の機会が重要となります。
準備
テレメトリ設計、CI/CD構築、構成管理、運用手順整備などの運用設計のフェーズになります。
テレメトリ設計
の箇所でCloudWatchでログたメトリクスを取得したり、X-Rayでアプリのトレースを取得します。その他VPC Flowlogsなどログの取得設定を行い、発生したイベントをEventBridge経由で対応を自動化します。CI/CD
の箇所はコードシリーズ、構成管理
はCFnなどを使います。ランブック・プレイブックは手順を準備する箇所になりますが、出来ればコード化して自動化を行います。
運用する
運用はただ運用するのではなくKPIを定義して達成度を評価します。KPIの例としては顧客満足度などが挙げられます。続いてKPIを評価するためのメトリクス(WEBページの応答率やエラー率など)を規定して、これらを定期的に評価して運用改善に役立てていきます。あとはイベントが発生した際にインシデント管理、問題管理など定められたプロセスに従って対応を行なっていきます。
進歩する
進歩するは時間をかけて改善する連続的なサイクルです。学習の箇所は障害振り返り
、ポストモーテム
など言い方は色々ありますが、発生した事象をしっかり分析していくことが重要です。また定期的な運用レビューも重要となります。共有の箇所では教訓として文章化、ナレッジ化を行い組織内に共有します。改善の箇所は継続的に改善するプロセスを持つことが重要になってきます。
まとめ
運用上の優秀性の柱の定義で実際に何をやっていけば良いかをまとめたものになります。