6
5

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?

Site Reliability Engineering
https://sre.google/

What is Site Reliability Engineering (SRE)?
SRE is what you get when you treat operations as if it’s a software problem. Our mission is to protect, provide for, and progress the software and systems behind all of Google’s public services — Google Search, Ads, Gmail, Android, YouTube, and App Engine, to name just a few — with an ever-watchful eye on their availability, latency, performance, and capacity.

仮訳
サイト信頼性技術(SRE)は何ですか?
SREは、ソフトウェアのように操作を処理するときの事です。 私たちの使命は、Googleのすべての公開奉仕(Google検索、広告、Gmail、Android、YouTube、App Engineなど)の背後にあるソフトウェアとシステムを保護し、提供し、進歩させることです。 それらの可用性、遅延、性能、および能力です。

What we do as SRE
Our job is a combination not found elsewhere in the industry. Like traditional operations groups, we keep important, revenue-critical systems up and running despite hurricanes, bandwidth outages, and configuration errors.

仮訳
SREとして行うこと
私たちの仕事は、業界の他の場所では見られない組み合わせです。 従来の運用班同様に、颶風、帯域幅の停止、構成エラーにもかかわらず、重要で収益が重要なシステムを稼働させ続けます。

解説:Googleの処理量が、従来より桁が大きいことを示唆している。桁が違えば、現象の複雑さも違うことが推測できる。Big dataという用語同様、従来との量の違いが、質的な影響があることを示唆している。

How We SRE At Google
As SRE, we flip between the fine-grained detail of disk driver IO scheduling to the big picture of continental-level service capacity, across a range of systems and a user population measured in billions.

仮訳
GoogleでのSREの方法
SREで、ディスクドライバのIO予定の詳細を、数十億単位の利用者数の大陸規模のサービス能力の全体像に切り替えます。

解説:従来と扱っている桁が違うことによる、従来技術で対応できないことがありそうだと示唆している。

Interested in joining SRE?
Google strives to cultivate an inclusive workplace.
We believe diversity of perspectives and ideas leads to better discussions, decisions, and outcomes for everyone.

仮訳
SREへの参加に興味がありますか?
Googleは、包括的な職場の発展に努めています。私たちは、立ち位置(視点)や考えの多様性が、すべての人にとってより良い議論、決定、結果につながると信じています。

Enterprise Roadmap to SRE
How to Build and Sustain an SRE Function
https://static.googleusercontent.com/media/sre.google/ja//static/pdf/enterprise-roadmap-to-sre.pdf

インフラエンジニアがSREを学ぶ点

機器と切り分け

大規模設備、サービスで利用する機材の性能、傾向を知らないと、従来の技術者の発想の延長線上でうまくいくことと、うまくいかないことが存在する。うまくいくことと、うまくいかないことの切り分けができないのであれば役に立たない。

見積もりと予測

能力があればあるほど、需要が集まって来る。どれくらいのサービス要求が発生する可能性があるか、どういう分布、波で発生する可能性があるかを、それまでのデータに基づいて、見積もり、予測することが大切である。

従来技術の能力限界試験

例えば、32bit CPUの制約、64bit CPUの制約など、従来技術の能力限界について、試験を行い、振る舞いを把握しているかどうか。単独の能力では十分でも、複数の技術を組み合わせた場合に発生する現象に対応できるかどうか。

従来事象との対応

従来でも、1桁または2桁ネットワーク要求が増えると、ダウンする現象を目撃したことがあるかもしれない。何度、警告を発しても、試験しない組織があったような気がする。

システムが止まってから、原因調査を始めることがあるらしい。
事前に予測可能かもしれない事項を、費用負担、責任境界など、対応しなかっただけかもしれない。

経験がないから試験しないという選択を取ったことはないだろうか。
試験をすると動かないことが発覚して出荷できないから試験しないという選択を取ったことはないだろうか。

未経験の試験は、しばしばシステムを壊滅的に破壊するかもしれない。
出荷前だと出荷が遅れるかもしれない。
出荷後に発覚するのと、どちらがいいのだろう。

膨大な費用を使って試験しても、何も出ないかもしれない。
費用負担を最初に見積もっていない場合があるのだろうか。

参考になるかもしれない過去の経験

安価 v.s. 高価

安価で単純なシステムより、高価で信頼性が高いシステムの方が故障率が高かったことを何度か経験している。

安価で単純なシステムは、何百万台と出荷していて、故障率がすでに見積れて、予備機材を確保しても費用がまかなえる。
高価で信頼性が高いシステムは、何十台しか出荷していないと、故障率の見積もりの幅が大きく、対応方法を計画しづらい。

3つ以上のOS、3つ以上の通信規約

一つのOSだけで、一つの通信規約であれば、何億要素でも対応できる試験を、模擬で実施することは容易である。

3つ以上のOSで、3つ以上の通信規約であると、何億要素で模擬試験を行うと、何十年に1度の減少が瞬時に発生したりして、誰も経験したことがない事態が発生するか、そういう事態を模擬試験では実現できずに発見できないかもしれない。

参考資料

SREとは何か
https://qiita.com/cocoa-maemae/items/d4f5a403f94e81da798f

SRE とは
https://qiita.com/miyuki_samitani/items/a080b6318129a3481657

SRE が処方されたら
https://qiita.com/san-tak/items/1e8a6aae062c5f6c4c64

2017年のSRE勉強会・イベント
https://qiita.com/hironao/items/2f2cdd82966d929cc2b5

プロダクト横断のSREチームを組成したい話
https://qiita.com/mshibuya/items/479af3acadf8f6590068

一覧

物理記事 上位100
https://qiita.com/kaizen_nagoya/items/66e90fe31fbe3facc6ff

量子(0) 計算機, 量子力学
https://qiita.com/kaizen_nagoya/items/1cd954cb0eed92879fd4

数学関連記事100
https://qiita.com/kaizen_nagoya/items/d8dadb49a6397e854c6d

統計(0)一覧
https://qiita.com/kaizen_nagoya/items/80d3b221807e53e88aba

言語・文学記事 100
https://qiita.com/kaizen_nagoya/items/42d58d5ef7fb53c407d6

医工連携関連記事一覧
https://qiita.com/kaizen_nagoya/items/6ab51c12ba51bc260a82

自動車 記事 100
https://qiita.com/kaizen_nagoya/items/f7f0b9ab36569ad409c5

通信記事100
https://qiita.com/kaizen_nagoya/items/1d67de5e1cd207b05ef7

日本語(0)一欄
https://qiita.com/kaizen_nagoya/items/7498dcfa3a9ba7fd1e68

英語(0) 一覧
https://qiita.com/kaizen_nagoya/items/680e3f5cbf9430486c7d

転職(0)一覧
https://qiita.com/kaizen_nagoya/items/f77520d378d33451d6fe

仮説(0)一覧
https://qiita.com/kaizen_nagoya/items/f000506fe1837b3590df

Qiita(0)Qiita関連記事一覧(自分)
https://qiita.com/kaizen_nagoya/items/58db5fbf036b28e9dfa6

鉄道(0)鉄道のシステム考察はてっちゃんがてつだってくれる
https://qiita.com/kaizen_nagoya/items/26bda595f341a27901a0

安全(0)安全工学シンポジウムに向けて: 21
https://qiita.com/kaizen_nagoya/items/c5d78f3def8195cb2409

一覧の一覧( The directory of directories of mine.) Qiita(100)
https://qiita.com/kaizen_nagoya/items/7eb0e006543886138f39

Ethernet 記事一覧 Ethernet(0)
https://qiita.com/kaizen_nagoya/items/88d35e99f74aefc98794

Wireshark 一覧 wireshark(0)、Ethernet(48)
https://qiita.com/kaizen_nagoya/items/fbed841f61875c4731d0

線網(Wi-Fi)空中線(antenna)(0) 記事一覧
https://qiita.com/kaizen_nagoya/items/5e5464ac2b24bd4cd001

OSEK OS設計の基礎 OSEK(100)
https://qiita.com/kaizen_nagoya/items/7528a22a14242d2d58a3

Error一覧 error(0)
https://qiita.com/kaizen_nagoya/items/48b6cbc8d68eae2c42b8

プログラマによる、プログラマのための、統計(0)と確率のプログラミングとその後
https://qiita.com/kaizen_nagoya/items/6e9897eb641268766909

官公庁・学校・公的団体(NPOを含む)システムの課題、官(0)
https://qiita.com/kaizen_nagoya/items/04ee6eaf7ec13d3af4c3

「はじめての」シリーズ  ベクタージャパン 
https://qiita.com/kaizen_nagoya/items/2e41634f6e21a3cf74eb

AUTOSAR(0)Qiita記事一覧, OSEK(75)
https://qiita.com/kaizen_nagoya/items/89c07961b59a8754c869

プログラマが知っていると良い「公序良俗」
https://qiita.com/kaizen_nagoya/items/9fe7c0dfac2fbd77a945

LaTeX(0) 一覧 
https://qiita.com/kaizen_nagoya/items/e3f7dafacab58c499792

自動制御、制御工学一覧(0)
https://qiita.com/kaizen_nagoya/items/7767a4e19a6ae1479e6b

Rust(0) 一覧 
https://qiita.com/kaizen_nagoya/items/5e8bb080ba6ca0281927

小川清最終講義、最終講義(再)計画, Ethernet(100) 英語(100) 安全(100)
https://qiita.com/kaizen_nagoya/items/e2df642e3951e35e6a53

<この記事は個人の過去の経験に基づく個人の感想です。現在所属する組織、業務とは関係がありません。>
This article is an individual impression based on the individual's experience. It has nothing to do with the organization or business to which I currently belong

文書履歴(document history)

ver. 0.01 初稿  20220313
ver. 0.02 ありがとう追記 20230508

最後までおよみいただきありがとうございました。

いいね 💚、フォローをお願いします。

Thank you very much for reading to the last sentence.

Please press the like icon 💚 and follow me for your happy life.

6
5
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
6
5

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?