この記事で伝えたいこと(ポイント)
- PagerDuty FANBOOK Vol.1に寄稿したよ
- 普段は開発者ロールの身分だけども実は分析もやっているよ
- PagerDutyはインシデント対応に一役買うところもあるけど、分析にも役立つよ
はじめに
この記事ではインシデント分析マンがPagerDuty FANBOOK Vol.1にアウトプットするまで
の話を書いています。主な内容としては書くまでの経緯や書いた人のプロフィール、テーマの決め方について書いています。
PagerDuty FANBOOK Vol.1を書くまでの流れ(簡潔に)
いろいろあってPagerDuty FANBOOK Vol.1を執筆するに至りました。
-
PagerDutyをゴリゴリに扱っている弊社、PagerDuty Japan Community Meetup Vol.2
に参加 -
もりはや
さんからPagerDuty FANBOOK Vol.1の募集があったので応募 -
あとはみんなでえいやって感じで書く
-
書き方はオムニバス形式なのでPagerDutyに絡む話ならなんでもOKというルール
そして、できたのがこちら
ペイジーくんが目印の良い表紙になりました。今回、私は第3章の執筆担当として
3. PagerDutyと運用分析 / @ymd65536
を担当しました。
テーマの話をしようと思いますが、「そもそもあんた誰よ」って人も多いと思います。また、自己紹介がテーマに絡むところがあるのでそういう意味も含めて先に自己紹介から失礼します。
いつも何やってる人なんですか
自己紹介です。QiitaではAWSの記事しか書いていないのでAWSを扱うクラウドエンジニアだと思われがちですが、普段は開発者のロールで国内導入実績2,500社以上のマネージドサービスプロバイダ(MSP)の裏側を開発しています。
と言われても何やってんのかよくわからないですよね。「そもそもMSPとは何か」ところの人が多いかもしれません。MSPについては後ほど補足を入れておきます。
補足:MSPとは
マネージドサービスプロバイダの略です。NTTさんのサイトがわかりやすいので引用します。
MSP(マネージドサービスプロバイダー)とは、お客さまのICT環境における監視・保守・運用業務を代行する事業者のことです。サーバーやストレージをはじめ、各種システムなどから構成されるICT環境でトラブルが発生すると、業務に多大な影響が出るおそれがあります。とはいえ、自社エンジニアがICT環境を常に監視することは困難です。そこで役に立つのがMSPのサービスです。
引用:MSP(マネージドサービスプロバイダー)を利用するメリットとは?
導入時の比較ポイントも紹介
要するにお客様に代わってシステムの一部あるいは全体をカバーするプロバイダのことです。
弊社の場合はクラウドのMSPなのでCSPとの関わりがとても大きいです。
(CSPのパートナー企業ということもありますが)※CSP:AWS、Azure、Google Cloud、OCIなど
PagerDutyと何の関係があるのか
では、そのMSPで何をやっているかというとクラウドオペレーションの効率化のためにオペレーションクラウドのPagerDutyを中心に据えた自社SaaSを開発・提供しています。
次世代監視基盤という名前で紹介されていますので気になる人はチェックしてみると良いでしょう。
AWS 運用・保守サービス|クラウドの活用ならcloudpack
---ここからが重要---
開発者というロールでエンジニアをやっていますが、もうひとつの顔として国内導入実績2,500社以上のマネージドサービスプロバイダ(MSP)のインシデント分析
も担当しています。
つまりはMSPのインシデントを絶対分析するマン(以下、インシデント絶対分析するマン)です。
※最近ではFindy ToolsでLookerを使った運用分析も掲載しました。
そんなインシデント絶対分析するマン
はどういうテーマでFANBOOK Vol.1に寄稿したのでしょうか。
PagerDuty FANBOOK Vol.1のテーマ
ここまでくるとわかりますが、テーマはインシデント分析です。他のメンバーがアラート対応やオペレーションについて書いている中、一人だけ分析をテーマに書いています。
PagerDutyの技術でいうと、PagerDuty APIのAnalytics APIを使っています。
もっと細かく「すげー」と言えるようなでかいものを書こうと思ったんですが、誰もが簡単に始められる方法でかつ言いたいことを伝えられる内容にしました。
「弊社ではPagerDutyのデータを使ったインシデント分析をプラットフォームとして社内に提供しています。」ということをお伝えしたかったという背景もあります。
なお、プラットフォームではいつどこで誰がどういう案件でどれくらいの対応スピードでインシデントに対応したか
がすぐわかるようになっており、インシデント管理の中心には先ほどの次世代監視基盤(AMS)とPagerDutyが採用されています。
引用:クラウド監視・運用保守の品質がさらに進化。AMS 適用やインシデント対応品質を高める「運用分析プラットフォーム」を短期間で構築
感想
- ほぼ初対面のメンバーなのになんとなくでみんな書き上げて出しちゃう素晴らしさ
- 完売、素晴らしい
- 業務実績として評価された。素晴らしい(ありがとうございます。)
- ちょっとだけお金入った。素晴らしい
初めてのことだらけでしたが、とても良い経験になりました。改めてみなさんお疲れ様でした。
まとめ
今回はインシデント絶対分析するマン
がPagerDuty FANBOOK Vol.1を技術書典にアウトプットするまでの話を書きました。インシデント分析は難しいのでとっつきにくいですが、頑張って分析して改善までできると面白いところがあります。
インシデントの分析は前述の分析プラットフォームとの出会いもありますが、PagerDutyがなければ、実現しないところが大いにあるのでこれはPagerDutyとの出会いと言っても過言ではないでしょう。
これからもインシデントの分析を続けていきます。