0
0

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?

インフラ規模が大きくなった時に次にやる運用の流れ

Posted at

はじめに

これまでスタートアップから大企業まで、さまざまな規模でクラウド・インフラエンジニアとして働いてきました。
その経験から、スタートアップがインフラ規模を拡大していく際の運用改善の流れをご紹介します。
なお、企業の文化や事業特性によって最適なアプローチは異なるため、あくまで一つの参考例としてご覧ください。

フェーズ1: 開発速度重視でも押さえるべき最低限の運用

開発速度と運用のバランス

スタートアップの初期フェーズでは、プロダクトマーケットフィットを見つけることが最優先です。
最初は「とにかく動くものを作る」ことに集中していました。

しかし、完全に運用を無視すると後で痛い目に遭います。
ある企業では、初期に運用を軽視した結果、ユーザー数が増えた段階で障害が頻発し、開発チーム全員が火消しに追われる事態になりました。

最低限実装すべき自動化

経験から学んだ必須項目

  • 開発環境・本番環境の分離(同じ環境内で構築を行うと、インシデントが発生しやすい)
  • デプロイの自動化(手動デプロイは必ずミスが起きる)
  • インフラのコード化(手動構築は再現性がない)

セキュリティは後回しにできない

セキュリティインシデントは企業の信頼を一瞬で失墜させます。
私が関わったある企業では、初期のセキュリティ設計の甘さが原因で、後に大規模な改修が必要になりました。
最初から以下は意識しておくべきです:

  • アクセス権限の最小化
  • シークレット情報の適切な管理
  • ネットワークの分離
  • ログの収集

障害通知は生命線

サービスに障害が起きたときに素早く気づける仕組みは必須です。
私の経験では、最低限以下の通知は実装しておくべきでした:

  • サービス停止の検知
  • レスポンスタイムの異常
  • エラー率の上昇
  • ログの収集

メールだけでなくSlackへの通知も重要です。
特に最近はメールをあまり見ない傾向があるため、普段使っているツールへの通知が効果的でした。

フェーズ2: オブザーバビリティの導入

なぜオブザーバビリティが必要になるのか

ユーザー数が増え、システムが複雑化すると「何が起きているか分からない」状態に陥ります。
私が経験したある企業では、原因不明の遅延が頻発し、調査に何時間もかかることが日常茶飯事でした。

オブザーバビリティツールを導入することで、問題の原因を素早く特定できるようになり、障害対応時間が劇的に短縮されました。

導入のタイミング

以下のような兆候が見えたら導入を検討すべきです:

  • サイトやアプリの利用ユーザーが増え、運用による影響が大きくなった
  • 障害の原因調査に数時間以上かかることが増えた
  • 「なんか遅い」という曖昧な報告が増えた
  • マイクロサービス化を始めた

段階的なアプローチ

一度にすべてを監視しようとすると失敗します。
ある企業では、最初に欲張りすぎて大量のメトリクスを収集した結果、膨大なコストがかかり、何を見ればいいか分からなくなりました。

おすすめの順序

  1. まずインフラの基本メトリクス(CPU、メモリ、ディスク)
  2. 次にアプリケーションのログ統合
  3. その後、APMやトレーシング

重要なのは、チームが使いこなせる範囲から始めることです。

フェーズ3: チーム体制と障害対応フローの確立

チーム規模と体制の変化

10人規模のスタートアップでは全員が何でもやりますが、30人を超えると専門性が必要になります。私が見てきたパターンは:

  • 10~30人規模:インフラ専任者を1-2名配置
  • 30~70人規模:SREチームの立ち上げ
  • 70人以上:プラットフォームチームとして独立

障害対応フローの重要性

「誰が何をするか」が不明確だと、障害時にパニックになります。
ある企業では、重要な障害が起きた際に複数人が同じ作業をしてしまい、かえって復旧が遅れたことがありました。

明確にすべきこと

  • 誰が判断するか(インシデントコマンダー)
  • どのレベルで誰に連絡するか
  • どこに情報を集約するか

オンコール体制について

24時間対応が必要になったとき、最初は創業メンバーが頑張りがちですが、これは持続可能ではありません。
私の経験では、以下のような進化を辿ることが多かったです:

  1. 創業メンバーが交代で対応
  2. エンジニア全員でローテーション
  3. 専門チームでのオンコール体制

重要なのは、オンコール担当者の負担を適切に管理することです。
週末対応したら代休を取る、深夜対応には手当を出すなど、サポートが必要です。

ポストモーテムの文化づくり

障害は成長の機会です。しかし「犯人探し」になってしまうと、隠蔽体質を生みます。私が働いていた企業では:

  • 個人ではなくシステムの問題として捉える
  • 改善アクションを必ず決める
  • その人を責めるのではなく、チームで共有する

企業規模による違い

スタートアップ(10~30人規模)

  • スピード最優先
  • 最小限の自動化と監視
  • 全員がある程度運用に関わる

中規模企業(30~70人規模)

  • 専門チームの立ち上げ
  • ツールへの投資開始
  • プロセスの標準化

大企業(70人規模以上)

  • 複数の専門チーム
  • エンタープライズツールの導入
  • 厳格なプロセスとコンプライアンス

まとめ

インフラ運用の進化に「正解」はありません。私がさまざまな企業で経験してきたことも、その企業の文化や事業特性に合わせてカスタマイズされたものです。

重要なのは:

  • ビジネスの成長に合わせて段階的に改善する
  • 完璧を求めすぎない
  • チームの成熟度に合わせる
  • 失敗から学ぶ文化を作る

あなたの会社に最適な運用体制は、あなたのチームが見つけていくものです。この記事が、その道筋を考える一つの参考になれば幸いです。

0
0
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
0
0

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?