クラウド運用管理の最前線 ~日米の最新状況から~
AWS Summit Tokyo 2019 1日目のセッションです。
日本と米国双方、運用の課題やその取込を紹介するセッションで、大きな違いは運用規模です。
プレゼンのキャプチャー簡単に取れますので、ライブストリーミングで視聴できるセッションはOnline視聴をお勧めします。
日本の課題
- マネジメントコンソールは誰のもの
- AWS is IT Toolbox
- アプリチームとインフラチーム両方使用する
従来運用体制
一般的には下記構成になってます。
- サービスマネージャー
- アプリチーム
- インフラチーム
- 運用チーム
AWSで従来運用体制の課題
- コミュニケーションのコスト(App <-> Infra)
- App: この設定をお願い
- Infra: 分かりました、試してみて
- App: できていません...
- Infra: すいません...
- インフラチームでAWSを全部管理するのは無理です
- LambdaのDeploy
- IAM
課題の解決方法
インフラチームの管轄範囲の変更、共通運用に集中する、下記は一部例
- アカウントの払い出す
- ベースネットワーク、セキュリティー
- 監視の運用
マルチアカウント戦略
システムごと、アカウントを切り離すこと、色々なメリットが得られます。
マルチアカウント管理のゴール
- 監査可能
- Scalable
- フレキシブル
- 自動化
- カードレール
- セルフサービス
共通運用チームの責任範囲
- 請求アカウント
- 請求集約
- アカウントの払い出す
- セキュリティー & 監査
- ログの集約
- 監査の実施
- 共有サービス
- 共有ネットワーク(VPC)
- 共有サービス(AD)
責任分離パターン
- DevOps Team
- 個別運用まで見るように
- App Team & Infra Team
- 各自責任範囲明確、共通範囲あり
- Research Team
- 全サービス活用
- Full Permission
- Securityの理解が必要
米国
圧倒的に規模感が違い、次世代マネジメントの取込が多い。
コントロール
- 大規模環境では特に重要
- ガードレールの設定(Guardrails setting)
- AWSが提唱
- 最初から制限なし
- CloudTrailでユーザ操作を監視、Guardrailsに抵触したユーザを制限する
- CloudFormation
- cfn-lint
- テンプレート検証
- セキュリティーリスク検知
- cfn_nag_scan
- セキュリティーリスク検知
コスト最適化
レコメンデーションをどう活用するかが重要、他社の管理ツールも運用視野に入れるべき
- リフト&シフト最適化
- ライトサイジング
- 伸縮性向上
- RI/Spot最適化
- Trusted Advisor
- EC2 Right Sizing
- 2週間の使用状況データを分析し、提案する
- Cloud Management Tools
- 他社の管理ツール
- レコメンデーション
次世代のクラウドマネジメント
Machine Learningの有効活用
- Capacity Planning
- AutoScaling
- 異常検知
- Kinesis Data Analytics
- ノイズキャンセリング
障害に備えるメカニズム
- Resiliency
- 回復力
- Design for Failure
- Error Ingestion
- 意図的に障害を起こす
- Aurora DB Cluster Fault Injection Queries
Chaos Engineering
Netflix使用するライブラリChaos Monkey、OSSで公開中
- Netflix本番運用中
- 検証環境で使用するお客様が多い