2
2

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?

【入門】SREとは? ─ 初めて聞いた人でもわかるサイト信頼性エンジニアリング

2
Posted at

はじめに

近年、IT業界で「SRE」という言葉を耳にする機会が増えてきました。
特にクラウドや大規模サービス運用を行う企業では必須の考え方となりつつあります。

しかし、初めて聞くと「SREって何?」「DevOpsと何が違うの?」と感じる方も多いはずです。
この記事では、初心者でもイメージがわきやすいように SREの基礎概念や類似用語との違い を解説します。


SREとは?

SRE (Site Reliability Engineering:サイト信頼性エンジニアリング) は、Googleが提唱するシステム運用の方法論です。
旧来は開発エンジニアと運用エンジニアは役割・チームが完全に分かれているのが一般的でした。
開発者にとっては開発したものをどんどんリリースすることで利用者の利便性が向上するため、システムの価値を高める(利便性向上)と考えますが、運用者にとってはリリースする数が多ければ多いほど、問題が発生する確率は高くなり、システムの価値が下がると考えます。
しかし、本来は利便性向上も安定した稼働もどちらもシステムの価値向上には欠かせないものです。
そこでGoogleではシステムの価値を総合的に考えて価値向上のために活動するグローバルなSREチームを形成しました。

SRE チームはソフトウェアツールを使用してシステムの管理問題解決、および運用タスクの自動化を行います。

「サービス運用をプログラミングや自動化で改善していく仕事」です:construction_worker::gear:


SREが目指すもの

SREの目的は以下の3つに集約されます。

  1. 高い信頼性の維持
    障害や性能低下を最小限に抑え、ユーザーが安心して使える状態を保つ
  2. 新機能と安定性のバランス
    新しい機能を素早くリリースしながら、安定した動作を確保する
  3. 効率的な運用
    手作業を減らし、自動化で効率を上げる

SREのキーワード

SLI / SLO / SLA

1. SLI(Service Level Indicator)

サービス品質を測る”数値指標”

  • 例:動画配信サービスの場合
    • 可用性:動画の再生リクエストが成功する割合(例:98.5%)
    • レイテンシ:動画が再生開始されるまでの平均時間(例:500ミリ秒)
    • エラーレート:再生失敗の割合(例:0.2%)

2. SLO(Service Level Objective)

SLIの”目標値”

  • 例:可用性を99.9%以上に保つ
  • 「この基準を満たしていればサービスは十分安定している」と判断する目安
  • もし平均可用性が99.5%に落ちたら、目標未達として改善が必要

3. SLA(Service Level Agreement)

契約上のサービス品質保証

  • 例:企業と顧客間で「可用性が99.9%未満の場合、翌月の利用料金を10%返金する」と取り決める
  • ビジネス的な約束であり、達成できなければペナルティが発生

エラーバジェット(Error Budget)

  • SLOが可用性99.9% → 許容可能な失敗は 0.1%
  • 動画配信サービスで月間100万リクエストなら、許容失敗は最大1000件
  • この範囲内であれば新機能リリースや負荷試験が可能
  • 範囲を超えたら新機能リリースを停止し、安定化を優先

このように稼働状況によって開発と運用の割合を増やしたり減らしたりするというのが、従来にない考え方です。そしてこれを実現するには開発者と運用者が一体になって進める必要があります。

トイル(Toil)

人手で何度も繰り返して行う運用作業。
SREはこれを自動化して減らすことを重要視します。


DevOpsとSREの共通点と相違点

共通点

  • 目的:どちらも高品質なサービスを迅速に提供し、ビジネス価値と対応スピードを向上させる
  • 文化重視:開発チームと運用チームの溝をなくし、協力体制を強化
  • 成果
    • 開発ライフサイクルの短縮
    • サービス品質と信頼性の向上
    • IT運用にかかる時間や負担の軽減
  • 自動化活用:効率的なワークフローと継続的改善を推進

相違点

観点 DevOps SRE
定義・位置づけ 文化・自動化・プラットフォーム設計による包括的アプローチ(抽象的概念) DevOpsの理念を具体的な活動として実践するための技術的手法
主な重点 開発パイプラインの効率化 信頼性の確保と新機能開発のバランス最適化
チーム構成 開発者・運用担当が連携 運用経験+開発スキルを併せ持つサイト信頼性エンジニアが専門性を発揮
強み コンテナ、Kubernetes、マイクロサービスなど最新技術の活用 SLA、SLI、SLO、エラーバジェットによる精密な信頼性管理
運用対応 開発者も運用タスクを行う 専門運用スキルで開発チームを支援し、信頼性を維持

DevOpsは文化・設計・自動化などの包括的な枠組み
SREはその理念を具体的なエンジニアリング活動として実現する方法
両方を組み合わせることで「開発の速さ」と「サービスの安定性」を両立できる


まとめ

SREは、サービスの信頼性を数値化し、運用と開発をバランス良くこなすことで、安定した高品質なサービス提供を実現します。
自動化を通じて手作業を減らし、信頼性向上と開発スピードの両立を目指すエンジニアリング文化です。

次回は 「SREエンジニア」 について解説予定です。


💡 参考文献

2
2
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
2
2

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?