概要
近年、ソフトウェアエンジニアのポジション(職種)としてSREというものが増えている。本記事ではSREがどのような概念で、どういった仕事内容になるかを検証してみる。
SREとは
SREはSite Reliability Engineeringの略語である。日本語に直訳すると、サイト信頼性工学になる。米Google社が2003年に作った概念で、スケールする巨大なITシステム(サイト)を運用していくための考え方である。
SREのミッション
会社によって異なるが、基本的には「ITシステム(サイト)の信頼性を担保するための性能、可用性、拡張性、セキュリティなどを向上させる」ということがミッションになる。
SREの仕事内容
会社によって異なるが、下記が挙げられる。
- インフラ(サーバー、ネットワーク)設計・構築
- 監視・アラート設計
- 障害対応
- スケールアウト(アップ)対応
- セキュリティ対策用緊急パッチ適用
- 運用の自動化
- その他自動化(開発環境、プロビジョニング、etc)
- SLI/SLOの管理
- ポストモーテムの運用
など
まとめ
簡単にまとめるとSREの仕事内容は、伝統的なインフラエンジニア(サーバーおよびネットワーク)が担当していた役割を踏襲しつつ、運用・保守担当が手作業で行ってきた領域を自動化し、アプリケーションエンジニアが担当してきた領域も一部担当する、という感じになると思われる。
参考資料
https://github.com/devopsenterprise/2018-London/blob/master/Tuesday/Breakout%20Sessions/Throne%2C%20Stephen%2C%20Getting%20Started%20with%20Site%20Reliability%20Engineering.pdf
http://landing.google.com/sre/book/index.html
https://ja.wikipedia.org/wiki/%E3%82%B5%E3%82%A4%E3%83%88%E3%83%AA%E3%83%A9%E3%82%A4%E3%82%A2%E3%83%93%E3%83%AA%E3%83%86%E3%82%A3%E3%82%A8%E3%83%B3%E3%82%B8%E3%83%8B%E3%82%A2%E3%83%AA%E3%83%B3%E3%82%B0
https://tech.nikkeibp.co.jp/it/atcl/column/14/346926/030600869/
https://furien.jp/columns/327/
https://tech.nikkeibp.co.jp/it/atcl/column/14/346926/030600869/
https://tech.mercari.com/entry/2015/11/18/153421
https://tech.s-cubism.jp/blog/archives/3891