はじめに
先日初めてSRE NEXTにオンライン参加しました。その感想を記していきたいと思います。
↓ 公式ホームページはこちら ↓
SRE NEXTとは
公式ホームページより引用
信頼性に関するプラクティスに深い関心を持つエンジニアのためのカンファレンスです。 同じくコミュニティベースのSRE勉強会である「SRE Lounge」のメンバーが中心となり運営・開催されます。
SRE NEXT 2024のテーマは「Beyond NEXT」です。SRE NEXT 2023で掲げた価値観 Diversity、Interactivity、Empathyを大切にしつつ、SREの担う幅広い技術領域のトピックや組織、人材育成に対してディスカッションやコミュニケーションを通じて、新たな知見や発見を得られる場にします。
セッション
2つのセッションに参加したので、その感想を書いていきます。
Enabling Client-side SLO
Luupでは、電動アシスト自転車、電動キックボードなどの電動マイクロモビリティのシェアリングサービス「LUUP」を提供しています。Luup SREチームでは、各開発チームがSREを実践しSLI/SLOを自律的に設計・実装・運用できるようにEnabling SREを進めています。「Enabling SREを進める」とはいえSREのプラクティスは多くあるため、まずはSREのコアとなる要素であるSLOをEnablingすることにしました。
これまでは、開発組織全体とIoT開発チームに対してEnabling SLOをおこなってきました(SRE NEXT 2023の登壇)。この活動をさらに拡大するため、クライアントサイド(iOS, Android)のSLOを計測し始めた話を共有します。
AndroidやiOSの開発チームを巻き込みながら、プロダクトマネージャーと共にクライアントサイドのSLOを運用し始めるまでの取り組みを、スタートアップ独特の企業の特性や課題を踏まえて共有します。
登壇資料
< 感想 >
SLIやSLO、それにかかわるメトリクスや使用サービスなどの、選定根拠や意思決定プロセスを知ることができて、興味深かったです。
1つのSLIに複数のSLOを設定したり、Weeklyで簡易ダッシュボード確認しながら議論したりと、適切なSLI・SLO設定だけでなく、分かりやすさや定着の観点でも工夫されていて素晴らしいなと思いました。
用語メモ
-
SLI(サービスレベル指標)
- サービスの稼働状況を数値化した指標のこと
-
SLO(サービスレベル目標)
- 事業者が自社のサービスレベル(サービス品質)に関する目標・評価基準を定めたもの
- サービスレベルの評価基準「SLO」とは より引用
- 事業者が自社のサービスレベル(サービス品質)に関する目標・評価基準を定めたもの
-
CUJ(クリティカルユーザージャーニー)
- ユーザー体験を見える化したカスタマージャーニーの中でも、特にビジネスの観点から重要とされる部分にフォーカスしたカスタマージャーニー
-
Core Web Vitals
- 2021年にGoogleが発表した「Webページ上でのユーザーエクスペリエンス(UX)を向上させるための重要な指標」
スタートアップの急成長に寄り添うOn-Call体制構築とその変遷
サービスの信頼性を維持しユーザに機能提供を続ける上でOn-Callの運用は必要不可欠であり、業務でこれに参加し関わっている人も多いでしょう。一方で体制の構築から運用フロー整備までは比較的泥臭い側面も多く、組織やフェーズによって要件も異なるためノウハウが多く流通していないように感じます。
私が所属する株式会社10Xでは、サービスや組織の急拡大に合わせてゼロからOn-Call体制の構築を行ってきました。そこで弊社のSREチームがどのようなプロセスを経て体制の導入と安定化を実現したか、組織の変遷をなぞりつつ事例を紹介します。
本発表ではPagerDutyやDataDogによるモニタリングからTerraformによる自動化といった技術的トピックだけでなく、実際にOn-Callを行っていくにあたって組織内でどのような取り組みを行ったか、技術面以外でのチャレンジについても重点的にお話しします。
登壇資料
< 感想 >
私が弊社のSREで働き始めたときには、既にモニタリングや対応体制がある程度整っている状態でした。
なので、このLTを通じて、モニタリングの黎明期から成熟期に至るまでに行ったことや苦労を知ることができて、とても興味深かったです。
発表の中にあった、「『アラートが多すぎる』という問題があったときに、アラートを減らす方に飛びついてしまいそうになるが、そうではなく担当のチームや詳しいチームにOwnershipを委譲することを行った。」というのが印象的でした。また、「組織全員で向き合い、負担を分散していくべき」というのも印象に残りました。Ownershipをどのチームにするのかを考える際も、誰かが指示する形式よりも皆で向き合うことで、「押し付け合い」のような構図を防げそうで、良い取り組み・心構えだなと感じました。
全体を通しての感想
今までAWS系の勉強会には何回も参加させていただきましたが、SRE系の勉強会は初めてでした。他の会社さんがぶつかった課題や、行った施策について学べて、とても良い機会になりました。次回は現地でも参加してみたいです。
以上です。ありがとうございました。