7
1

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?

ガバメントクラウド運用改善からSaaS製品開発へ

Posted at

昨日、ガバメントクラウドワークショップin大阪で登壇させていただいた内容になります。ガバメントクラウドを運用していく中での課題解決からSaaSサービス開発に繋げた話を記載させていただきます。

運用していく中での課題

現在、自治体標準化において、ガバメントクラウド環境の構築・運用を進めております。すでに本番稼働を行っているシステムもありますが、2026年に向けてさらに運用が本格化していく段階かと思います。

スライド1.PNG

そんな中で継続的な運用改善の取り組みを行っております。私はガバメントクラウドの領域ではネットワーク箇所を担当しています。その中でAWSから送信されるアラートがJSON形式で見づらかったり、トラブルシューティング時のログ分析がAWSに精通しているエンジニアでないと難しいという課題がありました。

スライド7.PNG

上記課題解決のために、生成AIを活用したアラート要約、ログ要約の仕組みを導入して、運用効率化の取り組みを行いました。取り組みは下記AWS公式ブログの中でも紹介いただいております。

今回は上記とは別の取り組みで、生成AIを使用した例ではありませんが、AWSのマネージドサービスを活用して運用改善を行った事例を記載いたします。

社内では、庁内インフラから業務パッケージ運用にあたるASP領域まで、一貫して対応を行っています。業務パッケージの導入・運用にあたる「ASP領域」は別部門で対応を行っておりますが、部門間でガバメントクラウドやAWSに関する勉強会を開催しており定期的な情報共有などを行っております。そんな中、今期は運用で困っている内容を共同で解決していこうという話になりました。話し合いの中で「ASP領域」を運用していく中で、ジョブ監視やアラート監視の運用に特に困っているという話がありましたので、こちらを解決していく流れとなりました。

スライド4.PNG

具体的に実施していた運用内容ですが、毎日決まった時間にジョブステータスの状況確認や不定期に届くアラートメールを確認するというオペレーションで、これを毎日当番制で実施しておりました。業務SEの方は自治体標準化というただでさえ忙しいプロジェクトの中で、朝早い時間、夜遅い時間にも対応が必要となり、かなりの精神的苦痛となっていました。

スライド5.PNG

具体的な作業フローを見ていくと、定期的にメールボックスを確認し、件名やキーワードから対応が必要なメールを抽出します。その後、対応状況を管理しつつ、当番SEだけでは対応できない場合が多いため、対応が可能なチームSEへメールで連絡を行います。ただ、夜間や早朝の時間帯はメールを送っても気づかないことが多いため、対応状況を確認しつつ、誰も対応していない場合はチームSEに電話で依頼を行う流れとなります。

スライド6.PNG

私の部署では24×365の運用も行っており、定型業務の対応であることから、代わりに有人での対応も可能であると伝えましたが、定期的に開催している勉強会の中でも新技術による課題解決を趣旨としていたため、Amazon Connectなどのマネージドサービスを活用した自動化を検討しました。

スライド13.PNG

スライド14.PNG

下記、GCASドキュメントの「データ可視化」に関する箇所にも、従来の運用監視のやり方を踏襲せず、より効率化、自動化に近づけていく旨の文章があります。運用の中で対応できていない箇所はまだ多くありますが、目指していく方向性は正しいと思い、私は昔からGCASドキュメントのこの箇所が結構好きです。

スライド7.PNG

マネージドサービス活用による自動化

先程の運用フローを再掲します。

スライド24.PNG

これまで人が対応していたフローを、AWSのマネージドサービスを組み合わせることで自動化を行いました。具体的には、Amazon SESでメールを受信後、Lambdaを使用してメールのフィルタリングを行います。対応状況をDynamoDBで管理しつつ、Amazon SNSを利用してチームSEにメールで対応依頼を行います。定期的にAmazon EventBridgeを使用して対応状況を確認しつつ、未対応の場合はAmazon Connectを使用してチームSEに自動的に電話連絡を行います。

スライド11.PNG

人手で監視運用する際の課題

今回システム導入による自動化を行いましたが、監視運用を人手で行う場合、運用担当者と監視担当者が分かれているため、どうしても連絡や調整の手間が発生してしまします。たとえば、作業前の静観連絡や監視設定変更時の連絡など、多くのコミュニケーションコストが発生してしまいます。

スライド13.PNG

また、監視運用の現場では「作業時の連絡忘れ」により意図しないアラートが発生したり、アラート発生時の連絡先担当者が変更されたにも関われず「担当者変更の連絡忘れ」などで、アラートが発生した際に現場が混乱してしまうことがあります。申請フローを整備してもこれらを完全に防止することは困難です。

スライド14.PNG

ダッシュボードを使用した効率化

これらの課題に対して、ダッシュボードを活用することで改善を図りました。ユーザー側(運用担当者)が自身で監視設定を変更できるダッシュボードを公開し、アラート切り分け用のキーワード設定や、電話連絡先・静観制御の設定などを簡単に設定できるようにしています。これにより、運用担当者、監視担当者の不要なコミュニケーションを削減し、間違いのない監視運用を実現できるようにしました。

スライド15.PNG

SaaS製品化

これらの仕組みをもとに、機能追加などを行い、SaaSサービスとしてリリースを行いました。導入は簡単でAWSやオンプレミス環境から発生するアラートの宛先に指定のメールアドレスを追加していただくだけで利用が可能です。その後、ダッシュボードが払い出されて、ここから監視設定を行うことで、運用フローの自動化を行うことが可能です。本サービスはクラウド環境に限らず、オンプレミス環境での利用も可能です。

スライド18.PNG

また、本製品は AWSのベストプラクティスに基づいた設計・構築・運用を行い、AWS FTR(Foundational Technical Review) を取得しました。FTR取得に関する記事は下記を参照ください。

スライド44.PNG

本製品の概要はこちらを参照ください。

7
1
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
7
1

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?