この記事は、**Google流SRE(Site Reliability Engineering)**を軸に、
「SREって結局なに?」「DevOpsとどう違う?」「何をやる仕事?」「どうやって目指す?」までを一気通貫でまとめます。
目次
- 1. SREとは(定義)
- 2. SREが生まれた背景
- 3. いつ・どこで・誰が始めたのか
- 4. SREの業務内容(代表例)
- 5. SREの代表的な考え方(SLI/SLOなど)
- 6. 他職種との違い(SRE vs DevOps 等)
- 7. 必要なスキル
- 8. なる方法(現実的ルート)
- 9. フリーランス単価(日本の目安)
- 10. SREのキャリアアップ(その後の選択肢)
- 11. 向いている人・向いていない人
- 12. メリット・デメリット
- 用語まとめ
- 参考リンク
1. SREとは(定義)
SRE(Site Reliability Engineering)は、ざっくり言うと:
「本番運用を、気合いと人手ではなく “エンジニアリング(ソフトウェア/システム工学)” でスケールさせる」ための職務・マインドセット・手法のセット
Googleの文脈では、SREはよく次のように説明されます。
- ソフトウェアとシステム工学を組み合わせ
- 大規模・分散・耐障害なシステムを構築・運用
- 信頼性・可用性・改善速度を両立させる
そして有名な言い回しとして:
「SREとは、“運用チームをソフトウェアエンジニアに設計させたら” 何が起きるか」
…という思想が、全体の核になっています。
2. SREが生まれた背景
インターネットサービスが急成長すると、従来型の“人手運用”はこうなります。
- サービス規模 ↑ → 運用負荷 ↑(比例で増える)
- 障害対応・手作業が増え、改善が追いつかない
- いつのまにか「運用するために運用している」状態に…
そこでSREは、運用にありがちな反復作業を**Toil(トイル)**として扱い、
- 自動化(スクリプト化 / IaC / パイプライン)
- 設計改善(冗長化、ボトルネック解消、フェイルセーフ化)
- 仕組み化(監視設計、障害対応の標準化、ポストモーテム)
のような「恒久的にラクになる投資」へ時間を寄せます。
3. いつ・どこで・誰が始めたのか
一般的に、
- 2003年ごろ
- **Ben Treynor Sloss(Benjamin Treynor Sloss)**が “SRE” という呼称を作った
…という説明がよく引用されます。
また、Google Cloud側の資料でもSREはGoogle由来の運用モデルとして紹介され続けており、
「Google発の手法が、業界へ広がっていった」流れで理解するとスッキリします。
4. SREの業務内容(代表例)
SREの仕事は会社によって差がありますが、Google流の「型」で見ると、だいたい以下が柱になります。
4.1 信頼性目標(SLO)を決め、計測できるようにする
- 何を「良い状態」とするかを数値化(例:成功率、レイテンシ、可用性)
- “雰囲気”ではなく “合意できる数字” を作る
4.2 監視・アラート設計(ユーザー体験に効く指標中心)
- ログ/メトリクス/トレースの整備(Observability)
- アラートは「鳴りすぎ」も「鳴らなさすぎ」も事故るので設計が超重要
4.3 障害対応(オンコール)と再発防止
- まず復旧(MTTR短縮)
- その後、ブレームレス・ポストモーテムで再発防止へ
4.4 Toil削減(自動化・仕組み化)
- Runbook整備、手順の自動化、運用のコード化
- “毎週の儀式”を消していく
4.5 変更管理・キャパシティ・パフォーマンス
- 安全に速く変える(リリースのガードレール作り)
- 負荷/性能/容量の見通し(キャパシティプランニング)
5. SREの代表的な考え方(SLI/SLOなど)
ここがSREの「共通言語」になりやすい部分です。
5.1 SLI / SLO / SLA
-
SLI(Service Level Indicator):サービス品質の「指標」
例:成功率、レイテンシ、可用性、エラー率 など -
SLO(Service Level Objective):SLIに対する「目標値」
例:過去30日で成功率 99.9% -
SLA(Service Level Agreement):顧客との「契約」
違反時の返金など、ビジネスの責務に直結しやすい
実務のコツ:**SLAは“外向き(顧客)”、SLOは“内向き(運用)”**で握ることが多いです。
5.2 エラーバジェット(Error Budget)
- ざっくり 「1 − SLO」
- 例:SLO 99.9%なら、0.1%は「失敗してよい枠」
これが強いのは、開発と運用の対立を、
- 「安全第一で止めるべき」
- 「新機能を出して攻めるべき」
という感情論ではなく、“残りの失敗枠”という共通言語で意思決定しやすくする点です。
5.3 Toil(トイル)
Toilは、典型的にこういう性質を持つ作業です。
- 手作業
- 反復的
- 自動化可能
- 戦術的(場当たりになりやすい)
- 永続的価値が薄い
SREはToilを減らし、空いた時間で改善を進めるのが基本戦略です。
5.4 ブレームレス・ポストモーテム
障害後に「誰のせい」をやると、現場は保身に寄ります。
SREでは、個人を責めず、学習して再発防止へつなげる文化が重要視されます。
6. 他職種との違い(SRE vs DevOps 等)
6.1 まず結論:SREとDevOpsは“対立概念”ではない
- DevOps:文化・哲学・組織改善(協業、サイロ解消、継続的デリバリーなど)を含む広い概念になりがち
- SRE:その理想を、SLO/計測/エラーバジェット/ポストモーテム/Toil削減などで「運用モデルとして実装」しやすい
6.2 雑に比較するとこんな感じ
| 観点 | DevOps | SRE |
|---|---|---|
| 性格 | 文化・協業・プラクティス全般 | 信頼性に焦点を当てた運用モデル |
| 指標 | DORAメトリクス等も多い | SLI/SLO/エラーバジェットが中心になりやすい |
| 仕事の見え方 | 開発~運用の境界を溶かす | “信頼性”をエンジニアリングで担保する |
7. 必要なスキル
SREは「運用ができればOK」ではなく、ソフトウェアエンジニアリング寄りの力が効きやすいです。
- プログラミング(自動化、ツール開発、テスト、性能改善)
- Linux/OS基礎(プロセス、メモリ、ファイル、権限、パフォーマンス)
- ネットワーク基礎(TCP/IP、DNS、LB、TLS、疎通/遅延/輻輳)
- 分散システムの勘所(障害は起きる前提、部分故障、リトライ地獄など)
- Observability(ログ/メトリクス/トレース)
- 障害対応(切り分け→復旧→再発防止)
- IaC / CI/CD / クラウド(Terraform等が案件要件で出やすい)
8. なる方法(現実的ルート)
入口はだいたい2つです。
8.1 SWE(開発)→ SRE
- 運用課題をコードで潰せるのが強い
- 変更・リリースに強い
8.2 インフラ/運用 → SRE
- 本番の勘所を持っているのが強い
- そこにソフトウェア工学(自動化/設計/テスト)を載せていく
8.3 最短で“それっぽく”なる実務ステップ(例)
- 対象サービスを決める(自社でも個人でもOK)
- SLIを定義(成功率/レイテンシ等)
- SLOを設定(例:30日 99.9%)
- アラートをSLO基準で設計
- Toilを棚卸し → 自動化(Runbook→スクリプト→IaC)
- 障害対応の練習 → ポストモーテム雛形で再発防止
9. フリーランス単価(日本の目安)
※単価は「掲載案件」「集計方法」「景気」で変動します。
※ここでの「月額」はざっくり 週5(140〜180h程度)換算を想定。
9.1 職種全体の平均として見えるライン
- 月90〜110万円台が見えることがある(平均の出し方や時期で差が出る)
9.2 経験年数(1年/3年/5年以上)で刻む単価イメージ
「SREの実務経験年数」で刻むと、相場感はだいたいこんなイメージになります(※サイト差・案件差あり)。
| 経験年数の目安 | よく任される領域(例) | 月額単価の目安 |
|---|---|---|
| 1年 | 監視/アラート整備、運用改善、IaC補助、Toil削減の一部 | 40〜70万円 |
| 3年 | SREとして自走、SLO/監視設計、Terraform/K8s、改善ループ主導 | 70〜100万円 |
| 5年以上 | リード/テックリード、横断改善、オンコール体制設計、信頼性の設計責任 | 90〜130万円+ |
単価は、SREの経験年数だけでなく「クラウド(特にKubernetes/マネージド運用)」「IaC」「可観測性(ログ/メトリクス/トレース)」「障害対応経験」「リード経験」で上振れしやすいです。
10. SREのキャリアアップ(その後の選択肢)
SREは「運用担当の延長」ではなく、信頼性を軸に横断できる職種なので、経験を積むほど選択肢が増えます。
10.1 技術を深める(IC:Individual Contributor)ルート
- Senior SRE → Staff/Principal のように、技術で影響範囲を広げる道
- 例:信頼性アーキテクチャの設計、複数チームのSLO設計支援、全社的な障害対応プロセス改善 など
10.2 Platform Engineering(プラットフォーム)へスライド
- SREの先でよくあるのが Platform Engineering(開発者体験/共通基盤/IDPなど)
- 「信頼性の改善」を超えて、開発組織全体の生産性まで責任範囲を広げる動き
10.3 マネジメント(EM / SRE Manager)ルート
- オンコール体制・採用・育成・ロードマップなど、組織づくり側へ
- テックリード→マネージャー→部門長…の流れも現実的
10.4 コンサル/アーキテクト寄り(信頼性×事業)
- SLO導入支援、Observability刷新、クラウド移行の信頼性設計、インシデント改善支援
- 「現場で回した経験」が強い武器になりやすい領域
10.5 次のステップで評価されやすい実績の例
- SLO導入で意思決定が変わった(リリース判断がデータで回るようになった)
- アラート削減(ノイズ低減)・MTTR短縮
- Toil削減(手作業を削って自動化に置き換えた)
- ポストモーテム運用の定着(再発防止が回るようになった)
11. 向いている人・向いていない人
向いている人(傾向)
- 仕組み化が好き(自動化、標準化、再発防止)
- 数字で議論できる(SLO/エラーバジェット)
- 障害対応でも冷静に切り分けできる(プレッシャー耐性)
- “速度と安全”のトレードオフ設計ができる
向いていない人(傾向)
- 手作業中心で満足しがち(Toilに飲まれやすい)
- 100%を求めすぎて、現実的な合意が苦手
- 障害/オンコールが強いストレスになる(組織次第で負荷が大きい)
12. メリット・デメリット
メリット
- 信頼性を**言葉ではなく数値(SLI/SLO)**で扱える → 合意しやすい
- エラーバジェットで、開発と運用の衝突を“共通言語”で調停しやすい
- Toil削減で、運用がスケールしやすい
デメリット(落とし穴)
- SLI/SLO設計が弱いと形骸化しやすい(測ってるけど意思決定に使えてない)
- 体制が弱いとオンコール/障害対応で燃えやすい
- “SREを置けば解決”ではなく、開発側との協業モデル設計が必要
用語まとめ
記事中に出てきた用語を、最後にサクッと振り返れるようにまとめます。
-
SRE(Site Reliability Engineering / 直訳:サイト信頼性エンジニアリング)
本番運用をエンジニアリングでスケールさせ、信頼性を高める考え方・職種。 -
DevOps(Development + Operations / 直訳:開発と運用)
開発と運用の壁をなくし、協業・継続的デリバリーを進める文化/考え方。 -
SLI(Service Level Indicator / 直訳:サービス水準指標)
サービス品質を測る“指標”(例:成功率、レイテンシ、可用性、エラー率)。 -
SLO(Service Level Objective / 直訳:サービス水準目標)
SLIに対する“目標値”(例:過去30日で成功率99.9%)。 -
SLA(Service Level Agreement / 直訳:サービス水準合意)
顧客との“契約”(違反時の補償が発生することが多い)。 -
Error Budget(直訳:エラーバジェット / 許容失敗枠)
「1 − SLO」で表せる“失敗してよい枠”。速度と信頼性の意思決定に使う。 -
Toil(直訳:骨の折れる単純作業、徒労)
手作業・反復・自動化可能・永続価値が薄い作業。SREはこれを減らす。 -
Observability(直訳:可観測性)
システム内部の状態を、ログ/メトリクス/トレース等で“観測して理解できる状態”にする考え方。 -
On-call(直訳:待機当番)
障害時に呼び出され、復旧対応を行う当番体制。 -
MTTR(Mean Time To Recovery / 直訳:平均復旧時間)
障害から復旧までにかかる平均時間。短いほど復旧が速い。 -
Blameless Postmortem(直訳:非難しない事後分析)
個人を責めず、事実と学びに基づいて再発防止につなげる振り返り。 -
Runbook(直訳:運用手順書)
障害対応や定型作業の手順をまとめたもの。自動化のベースにもなる。 -
IaC(Infrastructure as Code / 直訳:コードとしてのインフラ)
インフラ構成をコードで管理し、再現性・変更容易性を高める手法。 -
CI/CD(Continuous Integration / Continuous Delivery(Deployment)
直訳:継続的インテグレーション / 継続的デリバリー(デプロイ))
ビルド・テスト・リリースを継続的に回し、変更を安全に速く届ける仕組み。 -
Kubernetes / K8s(略称:K8s)
コンテナ運用のためのオーケストレーション基盤。SRE案件で要件になりやすい。 -
Terraform
IaCツールの代表例。クラウドの構成管理でよく使われる。 -
Platform Engineering(直訳:プラットフォームエンジニアリング)
共通基盤や開発者体験(DX)を整え、開発組織全体の生産性を上げる領域(SREからの発展先になりやすい)。
参考リンク
Google / Google Cloud(日本語)
- https://cloud.google.com/sre?hl=ja
- https://cloud.google.com/blog/ja/products/devops-sre/sre-fundamentals-sli-vs-slo-vs-sla
- https://docs.cloud.google.com/monitoring/slo-monitoring?hl=ja
- https://docs.cloud.google.com/stackdriver/docs/solutions/slo-monitoring/ui/create-slo?hl=ja
Google SRE(日本語あり)
- https://sre.google/intl/ALL_jp/resources/practices-and-processes/enterprise-roadmap-to-sre/
- https://sre.google/static/pdf/jp-enterprise-roadmap-to-sre.pdf
- https://sre.google/careers/
SREの起源・背景(読み物)
- https://cloud.google.com/blog/products/gcp/adventures-in-sre-land-welcome-to-google-mission-control
- https://www.usenix.org/publications/loginonline/evolution-sre-google
おわりに
SREは「運用担当」ではなく、信頼性をエンジニアリングで担保する役割です。
まずは SLI→SLO→アラート の最小セットを自分の環境で回してみると、一気に理解が進みます。