こんにちは、博報堂テクノロジーズの近藤です。
今回は、グーグル・クラウド・ジャパン合同会社様ご協力の元、SREのマインド醸成のきっかけを得たため、その経緯や行動変容を紹介します。
背景
所属部署の施策の一環として、グーグル・クラウド・ジャパン合同会社様のコンサルティングサービスを受ける機会がありました。
利用サービスの検討
社内検討
まず、私たちにとって価値あるサービスを選択するため、受けるべきサービスの議論がありました。具体的には、それぞれが感じている課題をブレインストーミングし、それらを抽象的な単位でグルーピングしています。
-----ブレインストーミング抜粋-----
- データ利用ポリシー、ガイドラインの策定 →【改善】セキュリティ・ガバナンス
- SRE Workbook 実施 →【改善】生産性向上
- SOC部隊立ち上げ →【改善】セキュリティ・ガバナンス
- 災害対策→【改善】可用性
- IAMポリシーの整備、明文化 →【改善】セキュリティ・ガバナンス
- Cloud FinOps Operating Modelの利用→【改善】経営層への提言・コスト削減
-----ここまで-----
方向性は見えてきたものの、せっかく実施するならば、すぐに効果が出ずとも内部から変化できるものに挑戦したいという思いがあり、悩ましい状態でした。
社外相談
グーグル・クラウド・ジャパン合同会社様に現状を伝えディスカッションを行いました。その中で所属部署のインフラ運用チームの方針として、SREのマインドを取り入れたいという点に焦点が当たり、SRE Coreというプログラムの紹介を受けました。
インフラ運用チームのチームリーダーからは、この学習を通じてメンバーのマインド向上と共通認識の確立を図ることで、チームの中長期的な成長の基盤を築くきっかけを得られ、また、SREの知識は組織として活用・展開でき、部門を超えたプラスの影響があるとの見解がありました。
以上から、部署を超えた効果を期待できるSRE Coreの利用を決定しました。
SRE Core
結論
個人の体感ですが、主に2つの事を経験・学習できました。
- SREの基礎的な概念や、SREを組成するに必要なカルチャーを腹落ち出来るレベルで学習
- SREを行う上で必要な各種指標の定義方法を理解し習得
前半戦
まず、SREの知識獲得を行いました。具体的には座学に加え、サンプルアプリケーションを題材とし、SREに必要な各種指標の検討・設定をグループディスカッションにて実施しました。
なお、現在の運用にも即座に適用できる取り組みでもありました。例えば障害対応時の振り返りは、人にフォーカスせずシステムを主語にすることで心理的に安全な環境を生み生産性を向上させる、などです。
感想
開始当初は少々緊張気味でしたが、この期間は講師⇔メンバーおよびメンバー間で頻繁にコミュニケーションを取る内容であり、早い段階から講師・メンバーとも打ち解けたと感じました。講義が進む中では、質問から議論に発展することが何度もあり、メンバーが良い熱量を持っていると肌で感じました。加えて、特定のメンバーのみが質問・議論しているわけではなく、全体的にこのような雰囲気であり、まだ前半戦ですが開催できてよかったと感じました。
後半戦
次に前半戦で学習した内容を、実際に開発・運営しているアプリケーションへ適用する段階となります。具体的に、ビジネス要件を元にアプリケーションにおける実利用者の代表的なアクションを定め、ユーザが満足する期待値の境界※、いわゆるCUJ、SLI、SLOを設定する内容でした。
※:例えばWebアプリケーションであればレスポンスタイム。ユーザの満足と不満足の境界の秒数等。
感想
SREはビジネス要求の充足がベースだと考えており、私が今までに経験したインフラ運用チームの考え方とは異なると感じました。また、後半戦では実アプリケーションを扱っており、前半戦よりも複雑で高度な内容でした。
ただ、前半戦の熱量を継続し、SRE Coreの打ち合わせ以外でもチャットでの議論や、ときおり自発的に集まってディスカッションを行うなど、解決に向け主体的な議論を続けました。その結果、講師の方も納得する内容を設定できたと感じます。難易度が高い内容であっても、主体的に取り組み解決へ向けて動けるメンバーが揃っていると感じました。
全体の所感
一貫して表面的なワークに終始せず、意図や背景を理解した上で各種指標を設定できたため、他プロダクトへ横展開できる知見が身についたと感じます。これを足掛かりに、アプリケーションチームやビジネス層との協業を深め、チームの成長に寄与したいと考えています。
印象に残っていること
「信頼性は100%を目指すものではない」が、印象に残っています。あくまで、実利用者の期待値を加味し、ビジネス側の要求を考慮した上で、妥当なラインを見つけていくことが大切だと学習しました。元々、私は金融系のインフラエンジニアであり、業種柄、信頼性は100%に近づくほど良い、と潜在的に考えていました。ただ、今回を契機に、必ずしも100%に近づくことが正しいわけではなく、実利用者とビジネスのバランスが大事だと、気づいた次第です。
感想・行動変容
参加メンバーの感想や行動変容を抜粋し記載します。
- SREの考え方はもとより、カルチャーやマインドを学習できる良い機会だった。特に心理的安全性、つまり分け隔てなく意見出来る環境、については早速自身がリードしているチームの会議等で心掛け実践したい
- 新案件にて、上流フェーズからSLI・SLOを意識した設計を実施する
- 所属チームでSREに関するディスカッションを開始しようと思う
- インフラ担当として今回題材のアプリケーションの仕様を深く理解できたと感じている
- 本番リリース前の監視体制の構築やリスク分析に大いに活かしていこうと考えている
- アウトプットする機会が全体的に高頻度で設けられており、解像度の高い理解が得られた
- そもそもSREが必要なのかを問う場面があったのも印象的だった。今回得たプラクティスをどの様に今の開発サイクルに活用するか検討できればと思っている
謝辞
グーグル・クラウド・ジャパン合同会社Professional Services担当の皆様へ、SRE Core実施期間中はもとより、メニュー選定のご相談から細かいことも含め、親身かつ的確なご対応をいただきありがとうございました。不安なくSRE Coreに臨むことができ、また内容も非常に良い体験だったと、参加メンバー含め感じています。