はじめに
7/12にSRE NEXT2025へ参加してきました。まだ興奮冷めやらぬ状態で、この記事を書いています。
私自身はSREではなく、バックエンドエンジニアとしてWebサービスの開発や運用保守を行っており、業務の中の7割くらいがSRE的なことをしている感じです。
多くの方に「SREをやられていますか?」と聞いてもらえましたが、しどろもどろになっていましたw
参加のきっかけ
参加を決めたきっかけは、本番障害が多発していて、その恒久対応に追われていたタイミングだったからです。
具体的には、顧客からの大量データのリクエストによって、バッチが遅延し、データストアがパンク寸前までリソースが圧迫する事態が発生しました。さらに、その遅延を解消しようとして二次障害を発生させてしまい、その二次障害に気づくのが1日経ってからという最悪な状況でした。
二次障害の発見が遅れた原因は、監視が必要な挙動を追えていなかったことと、12時間程度後に別のアラートが鳴っていたにも関わらず、そのアラートの調査が間違っていて対応が遅れたことでした。
こうした状況の中で、「同じような課題に直面している人たちはどう対応しているのだろう」という思いでSRE NEXTに参加することにしました。
印象的だったセッション
1. ABEMAの本番環境負荷試験への挑戦
私の現場でも、負荷試験をするための準備が大変すぎて課題になっていました。本番環境を使って負荷試験を行うにあたってのステークホルダとの調整の仕方や、リスクヘッジなどが非常にためになりました。
特に印象的だったのは、本番環境での負荷試験に対する周囲の不安を理解しつつ、段階的にリスクを軽減していく進め方でした。
2. 顧客の画像データをテラバイト単位で配信する画像サーバをWebPに対応させた時に起こった問題とその対応
非常に具体的な画像のサイズの問題について、サービス提供している顧客側とのコミュニケーションや、適切な分析結果を使った効果測定を伴って推進する姿が印象的でした。
技術的な課題解決だけでなく、顧客との調整や効果測定まで丁寧に行っている点が、まさに事業を支えるSREの姿勢だと感じました。私もシステム的な課題を丁寧に進めていきたいと思います。
3. オンコール⼊⾨〜ページャーが鳴る前に、あなたが備えられること〜
オンコール対応に入るにあたっての漠然とした不安が言語化できていて、さらに適切に対処するために自ら動いていたのはすごいと思いました。
私も長いこと同じシステムに関わっているので、新規参入者の気持ちはわからなくなっているかもしれません。オンコール対応などが適切に運用できるかなどは再検討してみたいと思います。
学んだこと
実際に行ってみたら、現場でサービスを動かし事業を支えている人たちの生の声がたくさん聞けて、すごく勉強になったし共感するところも多くありました。
他のカンファレンスだと、「それをやったことで、事業の成長には寄与したのだろうか...」などと疑問に思ってしまうひねくれた性格だったのですが、SRE NEXTでは多くのセッションで、事業の観点で課題解決を進めている印象がありました。
技術的な課題を解決することが、直接的に事業価値に繋がっているという実感を持てたのが、今回の大きな学びでした。
宣言
まずは読書!!
サインをいただいたシステム障害対応の教科書、積んでいるSREを読みます!!!
そしてアウトプット!!
直近対応した障害対応を世に出せる形で蒸留して発表します!
サインいただいた!
— takono (@takono0807) July 12, 2025
障害対応わいわいやってくぞ! #srenext pic.twitter.com/T0KjllHrFB
おわりに
SRE NEXTに参加して、同じような課題に直面している人たちがどう乗り越えているのかを知ることができ、非常に刺激になりました。
特に、技術的な課題解決と事業価値の両立を図っている事例が多く、SREという職種の魅力を再認識しました。
まだ震えが止まらないほど興奮していますが、この熱量を持って現場での改善活動に取り組んでいきたいと思います。