■これをやった理由
- 担当プロダクトにおいて、バッチサーバがスケール可能な状態になく、今後の利用ユーザの増大に備えて対応が必要となったため。
- proxyやwebはスケールできる状態なのに!!><
■そもそもCDPって
- AWSクラウドデザインパターン(略してCDPと呼ぶ)
- システムアーキテクチャ設計時の問題と解決方法のノウハウを整理したもの
- ロゴもあります!
- 詳しいサイトはこちらですが、ちゃんと説明します
■そもそもCDPって
わかりにくいですが、要はこれらのことです↓
■そもそもCDPって
下記は「Multi-Serverパターン」と呼びます
$\color{red}{\rm ※利点 }$片方のインスタンスに障害が起きてもシステム全体としては稼働可能
■そもそもCDPって
下記は「DB Replicationパターン」と呼びます
$\color{red}{\rm ※利点 }$片方のDBに障害が起きてもデータのロストを防げる
ここまでは皆さん良くご存知と思います
ここからは、バッチ処理のCDPの説明
ここで、1つ質問
バッチ処理のスケールの仕組み実装のご経験のある方?
それでは本題
■どんなCDPがあるか
- 下記を見て勉強しました!
- [AWS Summit 2012] クラウドデザインパターン#5 CDP バッチ処理編
■どんなCDPがあるか
- 下記も勉強しました!
- AWSにおけるバッチ処理の ベストプラクティス - Developers.IO Meetup 05
- AWSでジョブWorkerを構成するベストプラクティス 〜 SQSの巻 | Developers.IO
- AWSでジョブWorkerを構成するベストプラクティス 〜 Brianの巻 | Developers.IO
- AWSでジョブWorkerを構成するベストプラクティス 〜 Beanstalk worker tierの巻 | Developers.IO
■どんなCDPがあるか
- まとめると、下記のようなCDPがありました
- ①SQSに処理対象のメッセージ送信し、それを受けるWorkerで処理実行
- ②優先的に処理するキューを作成して処理するが、ほぼQueueChainと同じ
- ③CloudWatchの閾値により、処理するインスタンス数を増減させるが、それ以外はほぼQueueChainと同じ
- ④JobObserverパターンのスケジュール版
①QueueChain | ②Priority Queue | ③JobObserver | ④Scheduled Autoscaling |
---|---|---|---|
![]() |
![]() |
![]() |
![]() |
どのCDPの導入が適切か検討しました
■大まかな仕様<以前>
- Jenkinsより定期的ジョブ実行にて、バッチサーバ(EC2)へSSHログイン
- SSH先のEC2にて、シェルコマンド実行で、$\color{blue}{\rm パラメタ別で各バッチ処理を別プロセスで起動}$
- A処理+B処理=1000プロセスが2分おきに起動していた・・・
- $\color{red}{\rm ※問題点}$
- 1インスタンスのみで上記を実行しているため、アプリ数の増大と共にプロセス数が増大し、頭打ちが来る
■大まかな仕様<これから>
- Jenkinsより定期的ジョブ実行にて、バッチサーバ(EC2)へSSHログイン
- SSH先のEC2にて、シェルコマンド実行で、$\color{blue}{\rm 処理対象のパラメタを持つSQSメッセージをキューへ送信}$
- メッセージを取得するワーカープロセスを複数のインスタンスで起動し、$\color{blue}{\rm 1つのSQS内のメッセージを奪い合う形に実装}$
- ワーカープロセスにて、メッセージ内のパラメタ別でバッチ処理をシェルコマンドで起動
結論
QueueChainパターンを導入
しかし、そう簡単ではなかった
重複実行処理回避の仕組みが必要・・・
ということで作りました
■重複実行ロック機構<以前>
■重複実行ロック機構<これから>
- バッチサーバ共通でアクセスできるElasticCache(Redis)へロックを保存し、重複実行を回避
■利用したツール
- ワーカープロセス実行ツール
- 重複防止ロックデータ保持機構
■はまったところや改善点
- はまったところは特になかった
- ElasticBeanstalkのWorker tierを利用した形での実装
- メリット
- AutoScalingも自動で設定され、突然の負荷増大にも対応できそう
- デメリット
- 現在のCI、開発フローで改修したソースのリリースなどに対応できていないため、影響範囲が大きい。
- メリット
- Jenkinsにも依存しない状態での定期実行をさせたい。
- 現状はJenkinsが死ぬと困るので、Jenkinsの死活監視+NewrelicでのSQS監視を入れている。
- 本番運用時に、ワーカーによりSQSのメッセージを受け取らず、処理が行われない状態が発生
- 原因調査と対応が必要。
■参考サイト
- AWSにおけるバッチ処理の ベストプラクティス - Developers.IO Meetup 05
- AWSでジョブWorkerを構成するベストプラクティス 〜 SQSの巻 | Developers.IO
- AWSでジョブWorkerを構成するベストプラクティス 〜 Brianの巻 | Developers.IO
- AWSでジョブWorkerを構成するベストプラクティス 〜 Beanstalk worker tierの巻 | Developers.IO
- AWS(Amazon Web Service)で定時バッチを起動する方法 の調査 - Webエンジニアの開発記
- (超メモ)Elastic Beanstalk の Worker Tier について(cron っぽいことをやってみる) - ようへいの日々精進XP
- プロセスを数秒ごとに監視したい - ITmedia エンタープライズ
- AWS麻雀のCDP:Job Observerパターン | Kataoka's Blog