※ポエム記事とエンジリアリング近未来像のラグランジュポイントを狙った記事です
考察の前提
近日、SRE関連の書籍を再読していて、最初に読んだ際、学びになったとろ、今だからこそ気づけるところについて考えをまとめたいのでメモしておく
最初に読んだ時に学んだこと
最初読んだ時はSLOの実装例などSREプラクティスを教則として、現行のシステムや組織をソフトに従わせる聖書として使えるよう、ネタとしてストックしていた記憶がある
例えば日々使っている監視ツールのイケてない点を認識した
エージェンティック(ここでいうものは旧来のZabbix Agentとかの類)であれ、エージェントレスであれ適用すると多数の項目が自動設定されがちであり、これがまさにアラートノイズに繋がっている認識をした
マーケティングとしては、ソリューションを導入したら、出来るだけ労力少なく即効性の高い監視が始められるように魅せたいのだが、逆効果となっている。
欲しいメトリックをチューニングしてアラートを出すにはNew RelicのNSQLみたいなものが理想だが、いかんせん、ポチポチレベルではないので初級レベルのエンジニアにはだいぶ使い辛い。また、そういう点がDevOpsを目指しながらも、もっと人を巻き込む点でサイロ化のまま並走させてしまう
(監視設定はSREに寄ってしまう、しかし、エラーログはアプリ担当の範疇、とか)
今の状況でアップデートしても
現在においてもちっとも良くなっていないと思う
とはいえ地道な定着で、ある程度のDevOpsまではこれた、では、ここからはどんなものが必要になってくるだろうか?
現時点では単なるSLI→SLOの実装順だとうまく行かない点を体感している、これはSLIの項目が前述のデフォルト設定と結びつきやすく、さらに、アプリのエラー範疇とは違うため、アラートがDevOpsの中で交差していないままの認識
SRE Agent時代のSLI/SLOは?
AIでE2Eテスト(というかテスト実施のハードルそのもの)の障壁下がったため、MCP Server + E2EでUX=欲しい監視になる、CUJが監視の中心になる事が増えていると思われる
そうなると、旧来の監視はAgentにまかせる事が可能になってくる段階にきている
旧来の監視ツールがアラートとして飛ばしていたものから最終的にUXの阻害要因を調べるのはAgentに置き換わる
エスパー力の時代から、オブザーバービリティが勝る時代になる
つまり、CUJ→SLI→SLOという順番の方が適切な監視と信頼性を保てるという認識になる
これは各書籍でも同じことが書かれてはいたけど、ようやく本当にトイルを削減することに時間を割ける、そういう状況に辿り着いた
トイルはAIによって大きく削減できるのが真実として、では、SREはどうなっていくのか?イネーブリングスピードが加速すれば会社の中で大半のプロダクトに実装された結果、ノマドジョブとして他社を転々とするものになるのだろうか?
いや、拡張される
おそらく、そうはならない。拡張される。一例としてMonitoring Reliability Engineeringが考えられる
拡張によって解決するものは以下
- ①ヒートマップやCVR、SLOみたいに旧来はインフラスコープとデザイナ、PDMが見ていた範疇を紐づけ、組織横断的なオブザーバービリティを上げる存在(書籍では代理メトリクスとしてメトリックという点で言及されている)
- ②「①」の延長上で代理メトリクスの拡張。旧来の監視ではない、見えてないものをみるインサイド的なSLI/SLOに変わる社内共通言語となる目標値を構築する存在となる。また、無駄な指標評価するタスクを横断的にトイルとして廃止する役割を担う
- ③指標の悪化や回復のプラクティスを横断的にポストモーテムとして主催する。キャパシティプラインニングなど将来の予測的にサイトやアプリの未来に備える時間、リソース予知を伝搬させる
オイラーの式のように一見無関係、見えるものが結びついている事を設計する。これはAIより、人間が実装して仕事をデザインする領域になる
様々なxREが産まれる
SREは空いた時間でxREになることが推奨されると考えた
上記はそれの一つ。恐らく、x CoEも同じようなルートをたどるかもしれない
なぜなら、AIは人の言葉を飲み込む存在であり、単純な利用では心理的安全性の構築には逆効果だから、人そのもので作り上げるしかない。そのためAI時代だからこそ築ける心理的安全性が大きな軸となる
それがxREに求められるものと予測する
コミュニケーションと心理的安全性を触媒にして、組織へ根差していくもの
統一されたReliabilityはこれまでサイロ化されていたUXや組織の垣根を越えプロダクトへの愛を産み、帰属意識を高める数字とモチベーションというこれまで交差していなかった点を繋ぎ合わせる愛を産む
- アクセス数は伸びている、チームの稼働は限界、そこに愛は無いと思う
- 施策は山のよう出てくる、打ち手の結果はカナリアリリースの結果でしか分からない、そこに愛は無いと思う
- 新しい技術に取り組みたい、取り組んで良いかどうかはエラーバジェットではなく鶴の一声、そこに愛は無いと思う
AIがトイルを削減するのであれば、人間はコミュニケーション力を高め、それぞれの様々な思惑を大きな形にして、愛に変えていける、そう信じる