Cloud
Datadog
Spectre
Meltdown

DatadogからみたCPU脆弱性パッチのパフォーマンス影響

SaaS型運用監視サービスを提供するDatadog社のブログで
監視サービス事業者からみた、CPU脆弱性パッチの影響についての調査結果が報告されています。
Datadogが監視している数百万コアのデータに基づいた大規模な分析により、パッチの広範な影響を確認することができます。

The Meltdown/Spectre saga: The impact across millions of cores
https://www.datadoghq.com/blog/meltdown-spectre-cpu/

読み間違え等あるかもしれないので正確な内容は原文を参照いただければと思いますが、以下抜粋して記載します。

  • パッチの影響は system.cpu.system(CPUがカーネル空間で費やす時間の割合) メトリックで最も顕著だった
    • プログラムがシステムコールを行う度に、Kernel page-table isolation によってオーバーヘッドが発生するため
  • 1月3日以降、監視対象ホストのsystem.cpu.systemの平均値は大きく上回って増加した
    • 9日後、メトリックの値は通常の値に戻った
    • 恐らく初期パッチのパフォーマンス問題に対処するためのアップデートがリリースされたため
  • 平均的な影響は比較的小さい(CPU使用率への影響は1%未満)が、非常に多くのコアで影響がはっきりと観測されている
    • カーネル空間でより普段から多くの時間を費やしているCPUは4%~5%の影響がある
  • クラウドのインスタンスタイプ別に見た場合、system.cpu.systemのスパイクはコンピューティング最適化および汎用インスタンスで最も顕著
    • メモリ最適化インスタンスでも、これらほどでないにしろ、影響ははっきりと検出されている