2025年9月23日、待望の和製SRE本が出ました。
オライリーの本は有名ですが、人によっては読みにくいという声もあるので、そのあたりが紐解かれたこの本は、ある種待望の技術書だったのではないかと思います。知識地図というのも安心材料ですね。
今回は私なりに章ごとのつかみを要約してみたので、ぜひ参考にしてみてください。要約はAIを使わず私の脳と手を使って要約しております。
「つかみ」とある通り、実際に本を読まないと、内容を深掘りしきれないような、さわりの部分での要約としました。
この要約を読んでみて、さらに理解を深めたい方は実際に本を購入することをおすすめします💰
目次
| 章 | 内容 |
|---|---|
| 1 | SREとは |
| 2 | 信頼性を定義して組織で運用する |
| 3 | システムの状態を観測する |
| 4 | 障害を学びにつなげる |
| 5 | 障害対応のプロセスや体制を作る |
| 6 | 手作業を自動化し効率化する |
| 7 | サービスのリリースを事前にレビューする |
| 8 | SREの組織構造 |
| 9 | SREの実践 |
全体の要約
先に全体の要約をしておくと、SLO、モニタリング、オブザーバビデリティ、ポストモーテム、トイル、PRRというSREにとって重要なワードがなんたるか、そしてそれらを実際にどう設計して運用するかということが書かれていました。
感想
SREに必要な要素が体系的に書かれていて、それらの内容が適切なところまで掘り下げられていると感じました。これからSREになる人はもちろん、これらがすべて完璧に整備されているシステムというのはなかなかないと思うので、すでにSREの人もどちらも学びのある内容だと思います。
あと単純に知識地図シリーズということもあって、レイアウト的にすごく読みやすいです。
各章の要約
1章 SREとは
この章はまさに SREとは の内容そのままなので割愛します。
📃 2章 信頼性を定義して組織で運用する
SLO(SLA、SLO、SLI、エラーバジェット)の話がメインでかかれています。
そのなかでもSLOとエラーバジェットについての重要性が強く説かれていて、さらにSLOではどのようなステップで導入すると良いかが明示されています。
👀 3章 システムの状態を監視する
モニタリングとオブザーバビリティの話です。
体系化されたシステムのチェック方法やアラートの効果的な通知方法にはじまり、中〜終盤ではオブザーバビリティの話が中心です。通知の原則やデータの利用方法、導入指標などが書かれています。
📚 4章 障害を学びにつなげる
ポストモーテムがメインの章です。
ポストモーテムがなんたるか、目的や効果的な実施方法が書かれています。またそのポストモーテムを実際にどう運用させていくか、実際にチームやサービスに対してどのような効果があるかという点も書かれています。
5章 障害対応のプロセスや体制を作る
オンコール体制について書かれた章です。
明確なプロセスをもちつつも、必要なツールを使って効率化を考えようということが書かれています。また、対応品質向上のためには、知識の共有やRunbook(障害対応手順)が必要であり、さらにはエンジニアの心理や身体のケアができる環境も必要だという点も書かれています。
🧠 6章 手作業を自動化し効率化する
この章はトイル(自動化可能なタスク)の話がメインです。
トイルは明確にその特性ごとにわけて的確にとらえた上での対処が必要だということが書かれています。その上で、継続的な計測と削減を行う必要があると書かれています。
7章 サービスのリリースを事前にレビューする
PRR(本番リリースの前に本番の運用条件を満たしているかを確認するためのプロセス)の話がメインでかかれています。
一般には開発環境でテスト→本番リリースの流れだと思いますが、それだけじゃ足りないよと言っています。そのためにSRE以外のチームの協力や、チェックリストの作成などが必要だと書かれています。
8章 SREの組織構造
SREには多くの組織モデルがあり、それぞれにメリデメがあるので、チームのフェーズや状態に応じて適切に選択することが必要だと書かれています。
この組織構造はSRE組織成功の鍵であり、一度決めたものをずっと継続するのではなく、前述のようにフェーズや状態に応じて臨機応変に再編する必要があると書かれています。
9章 SREの実践
この章は名前の通り、実際にSREをやっていく上で考えるべきことが書かれています。
実践例なんかも載っているのでより導入のイメージがしやすいかと思います。また、今後のSREの領域がどうなっていくか、またその立場をより明確にするような内容が書かれています。
まとめ
さいごに改めて本書のキーワードから、考えるべきことを一言でまとめておきます。
📃 SLO:SLOとエラーバジェットを理解し、段階的に導入する。
👀 オブザーバビリティ:観測方法と通知設計を整え、システム状態を把握する。
📚 ポストモーテム:障害の原因や学びを整理し、運用に活かす。
🧠 トイル:特性を理解し、継続的に計測し削減する。
PRR:リリース前に運用条件をチェックし、不足を補う。
