AWS
運用
ChaosEngineering

AWS Summit - クラウド運用管理の最前線


クラウド運用管理の最前線 ~日米の最新状況から~

AWS Summit Tokyo 2019 1日目のセッションです。

日本と米国双方、運用の課題やその取込を紹介するセッションで、大きな違いは運用規模です。

プレゼンのキャプチャー簡単に取れますので、ライブストリーミングで視聴できるセッションはOnline視聴をお勧めします。


日本の課題


  • マネジメントコンソールは誰のもの


    • AWS is IT Toolbox

    • アプリチームとインフラチーム両方使用する




従来運用体制

一般的には下記構成になってます。


  • サービスマネージャー


    • アプリチーム

    • インフラチーム

    • 運用チーム




AWSで従来運用体制の課題


  • コミュニケーションのコスト(App <-> Infra)


    • App: この設定をお願い

    • Infra: 分かりました、試してみて

    • App: できていません...

    • Infra: すいません...



  • インフラチームでAWSを全部管理するのは無理です


    • LambdaのDeploy

    • IAM




課題の解決方法

インフラチームの管轄範囲の変更、共通運用に集中する、下記は一部例


  • アカウントの払い出す

  • ベースネットワーク、セキュリティー

  • 監視の運用


マルチアカウント戦略

システムごと、アカウントを切り離すこと、色々なメリットが得られます。


マルチアカウント管理のゴール


  • 監査可能

  • Scalable

  • フレキシブル

  • 自動化

  • カードレール

  • セルフサービス


共通運用チームの責任範囲


  • 請求アカウント


    • 請求集約

    • アカウントの払い出す



  • セキュリティー & 監査


    • ログの集約

    • 監査の実施



  • 共有サービス


    • 共有ネットワーク(VPC)

    • 共有サービス(AD)




責任分離パターン


  • DevOps Team


    • 個別運用まで見るように



  • App Team & Infra Team


    • 各自責任範囲明確、共通範囲あり



  • Research Team


    • 全サービス活用

    • Full Permission

    • Securityの理解が必要




米国

圧倒的に規模感が違い、次世代マネジメントの取込が多い。


コントロール


  • 大規模環境では特に重要

  • ガードレールの設定(Guardrails setting)


    • AWSが提唱

    • 最初から制限なし

    • CloudTrailでユーザ操作を監視、Guardrailsに抵触したユーザを制限する



  • CloudFormation


    • cfn-lint

    • テンプレート検証

    • セキュリティーリスク検知

    • cfn_nag_scan

    • セキュリティーリスク検知




コスト最適化

レコメンデーションをどう活用するかが重要、他社の管理ツールも運用視野に入れるべき


  • リフト&シフト最適化


    • ライトサイジング

    • 伸縮性向上

    • RI/Spot最適化



  • Trusted Advisor

  • EC2 Right Sizing


    • 2週間の使用状況データを分析し、提案する



  • Cloud Management Tools


    • 他社の管理ツール



  • レコメンデーション


次世代のクラウドマネジメント


Machine Learningの有効活用


  • Capacity Planning


    • AutoScaling



  • 異常検知


    • Kinesis Data Analytics



  • ノイズキャンセリング


障害に備えるメカニズム


  • Resiliency


    • 回復力

    • Design for Failure



  • Error Ingestion


    • 意図的に障害を起こす

    • Aurora DB Cluster Fault Injection Queries




Chaos Engineering

Netflix使用するライブラリChaos Monkey、OSSで公開中


  • Netflix本番運用中

  • 検証環境で使用するお客様が多い