SREとは？（定義/背景/業務/SLI・SLO解説/単価/なり方）

Posted at 2025-12-18

この記事は、**Google流SRE（Site Reliability Engineering）**を軸に、
「SREって結局なに？」「DevOpsとどう違う？」「何をやる仕事？」「どうやって目指す？」までを一気通貫でまとめます。

1. SREとは（定義）
2. SREが生まれた背景
3. いつ・どこで・誰が始めたのか
4. SREの業務内容（代表例）
5. SREの代表的な考え方（SLI/SLOなど）
6. 他職種との違い（SRE vs DevOps 等）
7. 必要なスキル
8. なる方法（現実的ルート）
9. フリーランス単価（日本の目安）
10. SREのキャリアアップ（その後の選択肢）
11. 向いている人・向いていない人
12. メリット・デメリット
用語まとめ
参考リンク

1. SREとは（定義）

SRE（Site Reliability Engineering）は、ざっくり言うと：

「本番運用を、気合いと人手ではなく “エンジニアリング（ソフトウェア/システム工学）” でスケールさせる」ための職務・マインドセット・手法のセット

Googleの文脈では、SREはよく次のように説明されます。

ソフトウェアとシステム工学を組み合わせ
大規模・分散・耐障害なシステムを構築・運用
信頼性・可用性・改善速度を両立させる

そして有名な言い回しとして：

「SREとは、“運用チームをソフトウェアエンジニアに設計させたら” 何が起きるか」

…という思想が、全体の核になっています。

2. SREが生まれた背景

インターネットサービスが急成長すると、従来型の“人手運用”はこうなります。

サービス規模 ↑ → 運用負荷 ↑（比例で増える）
障害対応・手作業が増え、改善が追いつかない
いつのまにか「運用するために運用している」状態に…

そこでSREは、運用にありがちな反復作業を**Toil（トイル）**として扱い、

自動化（スクリプト化 / IaC / パイプライン）
設計改善（冗長化、ボトルネック解消、フェイルセーフ化）
仕組み化（監視設計、障害対応の標準化、ポストモーテム）

のような「恒久的にラクになる投資」へ時間を寄せます。

3. いつ・どこで・誰が始めたのか

一般的に、

2003年ごろ
Google
**Ben Treynor Sloss（Benjamin Treynor Sloss）**が “SRE” という呼称を作った

…という説明がよく引用されます。

また、Google Cloud側の資料でもSREはGoogle由来の運用モデルとして紹介され続けており、
「Google発の手法が、業界へ広がっていった」流れで理解するとスッキリします。

4. SREの業務内容（代表例）

SREの仕事は会社によって差がありますが、Google流の「型」で見ると、だいたい以下が柱になります。

4.1 信頼性目標（SLO）を決め、計測できるようにする

何を「良い状態」とするかを数値化（例：成功率、レイテンシ、可用性）
“雰囲気”ではなく “合意できる数字” を作る

4.2 監視・アラート設計（ユーザー体験に効く指標中心）

ログ/メトリクス/トレースの整備（Observability）
アラートは「鳴りすぎ」も「鳴らなさすぎ」も事故るので設計が超重要

4.3 障害対応（オンコール）と再発防止

まず復旧（MTTR短縮）
その後、ブレームレス・ポストモーテムで再発防止へ

4.4 Toil削減（自動化・仕組み化）

Runbook整備、手順の自動化、運用のコード化
“毎週の儀式”を消していく

4.5 変更管理・キャパシティ・パフォーマンス

安全に速く変える（リリースのガードレール作り）
負荷/性能/容量の見通し（キャパシティプランニング）

5. SREの代表的な考え方（SLI/SLOなど）

ここがSREの「共通言語」になりやすい部分です。

5.1 SLI / SLO / SLA

SLI（Service Level Indicator）：サービス品質の「指標」
例：成功率、レイテンシ、可用性、エラー率など
SLO（Service Level Objective）：SLIに対する「目標値」
例：過去30日で成功率 99.9%
SLA（Service Level Agreement）：顧客との「契約」
違反時の返金など、ビジネスの責務に直結しやすい

実務のコツ：**SLAは“外向き（顧客）”、SLOは“内向き（運用）”**で握ることが多いです。

5.2 エラーバジェット（Error Budget）

ざっくり 「1 − SLO」
例：SLO 99.9%なら、0.1%は「失敗してよい枠」

これが強いのは、開発と運用の対立を、

「安全第一で止めるべき」
「新機能を出して攻めるべき」

という感情論ではなく、“残りの失敗枠”という共通言語で意思決定しやすくする点です。

5.3 Toil（トイル）

Toilは、典型的にこういう性質を持つ作業です。

手作業
反復的
自動化可能
戦術的（場当たりになりやすい）
永続的価値が薄い

SREはToilを減らし、空いた時間で改善を進めるのが基本戦略です。

5.4 ブレームレス・ポストモーテム

障害後に「誰のせい」をやると、現場は保身に寄ります。
SREでは、個人を責めず、学習して再発防止へつなげる文化が重要視されます。

6. 他職種との違い（SRE vs DevOps 等）

6.1 まず結論：SREとDevOpsは“対立概念”ではない

DevOps：文化・哲学・組織改善（協業、サイロ解消、継続的デリバリーなど）を含む広い概念になりがち
SRE：その理想を、SLO/計測/エラーバジェット/ポストモーテム/Toil削減などで「運用モデルとして実装」しやすい

6.2 雑に比較するとこんな感じ

観点	DevOps	SRE
性格	文化・協業・プラクティス全般	信頼性に焦点を当てた運用モデル
指標	DORAメトリクス等も多い	SLI/SLO/エラーバジェットが中心になりやすい
仕事の見え方	開発～運用の境界を溶かす	“信頼性”をエンジニアリングで担保する

7. 必要なスキル

SREは「運用ができればOK」ではなく、ソフトウェアエンジニアリング寄りの力が効きやすいです。

プログラミング（自動化、ツール開発、テスト、性能改善）
Linux/OS基礎（プロセス、メモリ、ファイル、権限、パフォーマンス）
ネットワーク基礎（TCP/IP、DNS、LB、TLS、疎通/遅延/輻輳）
分散システムの勘所（障害は起きる前提、部分故障、リトライ地獄など）
Observability（ログ/メトリクス/トレース）
障害対応（切り分け→復旧→再発防止）
IaC / CI/CD / クラウド（Terraform等が案件要件で出やすい）

8. なる方法（現実的ルート）

入口はだいたい2つです。

8.1 SWE（開発）→ SRE

運用課題をコードで潰せるのが強い
変更・リリースに強い

8.2 インフラ/運用 → SRE

本番の勘所を持っているのが強い
そこにソフトウェア工学（自動化/設計/テスト）を載せていく

8.3 最短で“それっぽく”なる実務ステップ（例）

対象サービスを決める（自社でも個人でもOK）
SLIを定義（成功率/レイテンシ等）
SLOを設定（例：30日 99.9%）
アラートをSLO基準で設計
Toilを棚卸し → 自動化（Runbook→スクリプト→IaC）
障害対応の練習 → ポストモーテム雛形で再発防止

9. フリーランス単価（日本の目安）

※単価は「掲載案件」「集計方法」「景気」で変動します。
※ここでの「月額」はざっくり 週5（140〜180h程度）換算を想定。

9.1 職種全体の平均として見えるライン

月90〜110万円台が見えることがある（平均の出し方や時期で差が出る）

9.2 経験年数（1年/3年/5年以上）で刻む単価イメージ

「SREの実務経験年数」で刻むと、相場感はだいたいこんなイメージになります（※サイト差・案件差あり）。

経験年数の目安	よく任される領域（例）	月額単価の目安
1年	監視/アラート整備、運用改善、IaC補助、Toil削減の一部	40〜70万円
3年	SREとして自走、SLO/監視設計、Terraform/K8s、改善ループ主導	70〜100万円
5年以上	リード/テックリード、横断改善、オンコール体制設計、信頼性の設計責任	90〜130万円+

単価は、SREの経験年数だけでなく「クラウド（特にKubernetes/マネージド運用）」「IaC」「可観測性（ログ/メトリクス/トレース）」「障害対応経験」「リード経験」で上振れしやすいです。

10. SREのキャリアアップ（その後の選択肢）

SREは「運用担当の延長」ではなく、信頼性を軸に横断できる職種なので、経験を積むほど選択肢が増えます。

10.1 技術を深める（IC：Individual Contributor）ルート

Senior SRE → Staff/Principal のように、技術で影響範囲を広げる道
例：信頼性アーキテクチャの設計、複数チームのSLO設計支援、全社的な障害対応プロセス改善など

10.2 Platform Engineering（プラットフォーム）へスライド

SREの先でよくあるのが Platform Engineering（開発者体験/共通基盤/IDPなど）
「信頼性の改善」を超えて、開発組織全体の生産性まで責任範囲を広げる動き

10.3 マネジメント（EM / SRE Manager）ルート

オンコール体制・採用・育成・ロードマップなど、組織づくり側へ
テックリード→マネージャー→部門長…の流れも現実的

10.4 コンサル/アーキテクト寄り（信頼性×事業）

SLO導入支援、Observability刷新、クラウド移行の信頼性設計、インシデント改善支援
「現場で回した経験」が強い武器になりやすい領域

10.5 次のステップで評価されやすい実績の例

SLO導入で意思決定が変わった（リリース判断がデータで回るようになった）
アラート削減（ノイズ低減）・MTTR短縮
Toil削減（手作業を削って自動化に置き換えた）
ポストモーテム運用の定着（再発防止が回るようになった）

11. 向いている人・向いていない人

向いている人（傾向）

仕組み化が好き（自動化、標準化、再発防止）
数字で議論できる（SLO/エラーバジェット）
障害対応でも冷静に切り分けできる（プレッシャー耐性）
“速度と安全”のトレードオフ設計ができる

向いていない人（傾向）

手作業中心で満足しがち（Toilに飲まれやすい）
100%を求めすぎて、現実的な合意が苦手
障害/オンコールが強いストレスになる（組織次第で負荷が大きい）

12. メリット・デメリット

メリット

信頼性を**言葉ではなく数値（SLI/SLO）**で扱える → 合意しやすい
エラーバジェットで、開発と運用の衝突を“共通言語”で調停しやすい
Toil削減で、運用がスケールしやすい

デメリット（落とし穴）

SLI/SLO設計が弱いと形骸化しやすい（測ってるけど意思決定に使えてない）
体制が弱いとオンコール/障害対応で燃えやすい
“SREを置けば解決”ではなく、開発側との協業モデル設計が必要

用語まとめ

記事中に出てきた用語を、最後にサクッと振り返れるようにまとめます。

SRE（Site Reliability Engineering / 直訳：サイト信頼性エンジニアリング）
本番運用をエンジニアリングでスケールさせ、信頼性を高める考え方・職種。
DevOps（Development + Operations / 直訳：開発と運用）
開発と運用の壁をなくし、協業・継続的デリバリーを進める文化/考え方。
SLI（Service Level Indicator / 直訳：サービス水準指標）
サービス品質を測る“指標”（例：成功率、レイテンシ、可用性、エラー率）。
SLO（Service Level Objective / 直訳：サービス水準目標）
SLIに対する“目標値”（例：過去30日で成功率99.9%）。
SLA（Service Level Agreement / 直訳：サービス水準合意）
顧客との“契約”（違反時の補償が発生することが多い）。
Error Budget（直訳：エラーバジェット / 許容失敗枠）
「1 − SLO」で表せる“失敗してよい枠”。速度と信頼性の意思決定に使う。
Toil（直訳：骨の折れる単純作業、徒労）
手作業・反復・自動化可能・永続価値が薄い作業。SREはこれを減らす。
Observability（直訳：可観測性）
システム内部の状態を、ログ/メトリクス/トレース等で“観測して理解できる状態”にする考え方。
On-call（直訳：待機当番）
障害時に呼び出され、復旧対応を行う当番体制。
MTTR（Mean Time To Recovery / 直訳：平均復旧時間）
障害から復旧までにかかる平均時間。短いほど復旧が速い。
Blameless Postmortem（直訳：非難しない事後分析）
個人を責めず、事実と学びに基づいて再発防止につなげる振り返り。
Runbook（直訳：運用手順書）
障害対応や定型作業の手順をまとめたもの。自動化のベースにもなる。
IaC（Infrastructure as Code / 直訳：コードとしてのインフラ）
インフラ構成をコードで管理し、再現性・変更容易性を高める手法。
CI/CD（Continuous Integration / Continuous Delivery(Deployment)
直訳：継続的インテグレーション / 継続的デリバリー（デプロイ））
ビルド・テスト・リリースを継続的に回し、変更を安全に速く届ける仕組み。
Kubernetes / K8s（略称：K8s）
コンテナ運用のためのオーケストレーション基盤。SRE案件で要件になりやすい。
Terraform
IaCツールの代表例。クラウドの構成管理でよく使われる。
Platform Engineering（直訳：プラットフォームエンジニアリング）
共通基盤や開発者体験（DX）を整え、開発組織全体の生産性を上げる領域（SREからの発展先になりやすい）。

参考リンク

Google / Google Cloud（日本語）

Google SRE（日本語あり）

SREの起源・背景（読み物）

おわりに

SREは「運用担当」ではなく、信頼性をエンジニアリングで担保する役割です。
まずは SLI→SLO→アラート の最小セットを自分の環境で回してみると、一気に理解が進みます。

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up