この記事は ex-crowdworks Advent Calendar 2024の23日目の記事です。
はじめに
今年、株式会社クラウドワークスを退職した@nisyuuです。お気に入りの鶏肉販売会社は鳥藤です。
エンジニアとしてクラウドワークステック(旧クラウドテック)というフリーランスと企業をマッチングするエージェントサービスを開発していました。
クラウドワークス入社後、テック開発チームにはインフラエンジニアがいませんでした。
そのせいか、インフラの運用がなぜかマネージャーに依存していたため、私の方でなるべく担当するような体制にしました。
インフラエンジニアになったからには、「個のためのインフラ」のインフラを安定稼働させていく必要があります。
今回は、意思を持ってインフラを守り抜くために、どのようなことをしていたかを紹介します。
何をしていたか
サービスを守り抜くために実施してインフラ作業は、主にこちらの2つです。
- 毎日のモニタリング
- インシデントが起きたときの対応
毎日のモニタリング
毎朝、サーバーのメモリやスループットなどをチェックし異変がないかを確認していました。
稀に国外から大量のリクエストが来ることもあり、攻撃と見なすことができるようなリクエストについてはIP制限をかけることをしていました。
モニタリングした内容は、毎日異変が発生した時の対処方法も含めドキュメントに記録していました。
記録を残しておくことで、異変が発生したときに同じ事象が過去に発生していないか確認できることや、作業の引き継ぎが発生した際に後継者へナレッジを残しておくことができます。
ナレッジ化されているということは、属人化を抑えることにもつながります。
引き継ぎや属人化については、こちらも参考になるため置いておきます。
テック開発チームに在籍中、属人化を抑えるべく強い意思を持って将来有望なエンジニア達に作業を委譲したのですが、迅速に引き継ぎができたためナレッジ化の効力も大きかったのではないかと思います。
インシデントが起きた場合の対応
インフラ運用をしていると、突発的なインシデントが起きることもあります。
テック開発チームにいたときは、だいたいホスティング側起因によるインシデントが多く対応に追われることがありました。
例えば、2022年にGitHubがHerokuとTravis-CIに発行したOAuthトークンが、流出するインシデントが発生しました。
他にも、CircleCIで起きたインシデントもありました。
こういった問題を真っ先にキャッチアップし、迅速に解決するということを行っていました。
おわりに
精力的にインフラエンジニアとしても活動していたためか、退職直前までチーム外からはフルスタックエンジニアではなくインフラエンジニアとして認識されるまでになっていました。
これは、意思を持って取り組むことができたことに他ならない証拠だと思っています。
将来有望な未来ある皆様にも、自分の役割に捉われない働き方を追求していただき、リスキリングに意思を持って取り組み、仕事に誇りを持つことで日本の経済発展に貢献いただけることを切実に熱望しています。
Be AjileにGrowth Targetで達成よろしく!
参考