2019年6月4日(火)に開催された「NoOps Meetup Tokyo」第6回 の参加レポートです。
NoOps Meetup Tokyo #6 (connpass)

オープニング
共感駆動のSRCAサイクル「共感」⇒「尊重」⇒「貢献」
今日のセッション

Observability を支える Stackdriver
山口 能迪さん(Google)
物理データセンターでも NoOps
山本 泰宇さん(サイボウズ)
NoOpsを実現するSREの存在意義と役割
かつひささん(スタディスト/SREラウンジ)
パネルディスカッション
- どうやってNecoメンバーのスキルを集めたのか?
- 1から育てている。
- 属人性の排除について(共通化と属人性について)
- 昔は、人が変わっても業務は変わらない。
- 今は、毎年変わる。Googleでも毎年新サービスが出てくる。
- そうなると、人が重要となってくる。
- SECIモデル。暗黙知を共有化。
- 属人性は暗黙知の塊。これを表面化して落とし込む。
- 技術の共有化をどうやっている?
- スキルマップを作成している。
- SRE、NoOpsの実現の為に、チームの価値観、文化の醸成をどうやっているか
- ワンクリックでロールバックできるようにしておくなどをして、
個人の責任にしないようにシステムでフォローする。 - トップダウンでは変わらない。
- お互いやりたいことに併せていくと相互理解が進む。
- 無理にしないことも大事。
- 25,000人の開発。すべてシステムでルールが決められている。
- 公用言語が決まっている。目視のレビューもある。
- テストで壊れたら壊した人が直さなければならない。
- ルールが決まっている。人間に責任を押し付けるのではない。
- そういう仕組みになっている。
- SREは継続的に提供するところで役立つ。
- ビジネス的な決定権を持った方に理解を求める。
- 20年以上固い会社でアーキテクチャーを導入しようとしたが、だめなものはだめ。
- 心理的安全性は大事。怖くない状況。
- ビジネスサイドの方の心理的安全性が担保されていない?
- 経営の立場の方に、どうしたら安心してもらえるか。
- ワンクリックでロールバックできるようにしておくなどをして、
- どうやってインシデントコマンダーを育てているか
- スキルマップを見て、育てる。
- インシデント発生時は、アプリケーションを開発しているチームとSREチームが入る。
- スキルが足りないなら別の人も入る。
- セカンダリとして入ってプライマリのやっていることを覚えさせる。