4
5

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?

【AWS】EC2×td-agent構成におけるログ連携遅延のトラブルシューティング

Last updated at Posted at 2025-02-10

0.はじめに

NTTデータの鶴ヶ崎です。
公共分野の技術戦略組織に所属しており、普段はクラウド(主にAWS)を用いたシステム構築等を行っています。

今回はEC2×td-agent構成のログ機能におけるログ連携遅延が発生したため、当時のトラブルシューティング事例を共有しようと思います。同様の問題を抱える方の参考になれば幸いです。

目次

1.本記事の前提情報

本題に入る前に前提情報を説明します。

1.1 Fluentd、td-agentとは

image.png
  • td-agent
    • Fluentdの安定版
       
  • Fluentd、td-agentの特徴
    • エージェント・サーバ型の構成をとることで、複数サーバからログを集約可能
    • 各ログをリアルタイムでログ連携先サーバに連携し、連携先のログストア(buffer)に保管
    • bufferから、設定タイミングでログ出力(flush)
       
  • Fluentd、td-agentの利点
    • bufferにログを蓄積するため高信頼性
    • LinuxやWindows等マルチプラットフォーム対応
    • ログに限らず各種データをNoSQLやS3等様々な媒体に出力可能
      image.png

1.2 システム構成

本トラブルシューティング事例のシステム構成は以下図のようになっています。
image.png

ポイント

  • 以下の順序でS3にログ出力
    1. 各ログ連携元サーバ → ログ連携先サーバのbufferにログを保持
    2. ログ連携先サーバのbufferから1時間に1回flush
    3. 1時間に1回のバッチでS3に出力
  • confによりbufferをメモリでなくディスクに保存する設定
  • CentOS 7系EOLを迎えるに伴い、ログ連携元・先サーバのOSディストリビューション変更を実施
    • 変更前:CentOS 7.3
    • 変更先:Rocky Linux 8.6
  • OSディストリビューション変更に伴い、td-agentのメジャーバージョンアップを実施
    • VerUP前:2.3.6
    • VerUP後:3.8.1

上記変更後のログ連携元・先の各サーバは以下の構成となります
image.png

  • ログ連携元サーバ
    • EC2
      • インスタンスタイプ:t3.medium
      • OSディストリビューション:Rocky Linux 8.6 (Green Obsidian)
      • td-agentバージョン:3.8.1
         
  • ログ連携サーバ
    • EC2
      • インスタンスタイプ:r5.xlarge
      • OSディストリビューション:Rocky Linux 8.6 (Green Obsidian)
      • td-agentバージョン:3.8.1
         
    • EBS
      • サイズ:128GiB
      • タイプ:gp3
      • IOPS:3000
      • スループット:125MiB/秒

2.発生したトラブル

OSディストリビューション変更/td-agentのメジャーバージョンアップ後、ログ連携先サーバからS3へのログ出力が以前より2時間以上遅延していることが発覚しました。
image.png

2.1 被疑箇所の特定

再掲ですが以下の順序でS3にログ出力しています。

  1. 各ログ連携元サーバ → ログ連携先サーバのbufferにログを保持
  2. ログ連携先サーバのbufferから1時間に1回flush
  3. 1時間に1回のバッチでS3に出力

 
各処理を順にみていきます。

  1. 各ログ連携元サーバ → ログ連携先サーバのbufferにログを保持
    • 意図通りにログ連携先サーバにログ保持されているため、被疑箇所でないと判定
       
  2. ログ連携先サーバのbufferから1時間に1回flush
    • 意図したタイミングよりも約20分遅くflush完了しており、本来より1,2時間後のバッチでS3出力されているため、「2」が被疑箇所と判定
       
  3. 1時間に1回のバッチでS3に出力
    • 本来の時間に「2」でflushされたログは意図した時間にS3出力されていることを確認
    • 「2」の理由から、被疑箇所でないと判定

2.2 原因の特定

「2. ログ連携先サーバのbufferから1時間に1回flush」の処理に影響するものとして以下が考えられるため、以下3つのいずれかに問題があると予測し確認を行った。

  1. ログ起因
  2. td-agentバージョンアップ起因
  3. OSディストリビューション変更起因

原因の候補をみていきます。

  1. ログ起因
    • OSディストリビューション/td-agentのメジャーバージョンアップ前後でログ量の大幅増はないので、原因でないと判定
       
  2. td-agentバージョンアップ起因
    -「1」「3」の調査より、 「2」が原因である可能性が高いと推測した。
     
  3. OSディストリビューション変更起因
    • 以下2点より、原因でないと判定
      • CPU使用率、I/Oなどリソース状況が高負荷でない
      • Rocky Linuxとtd-agentが動作サポートされていることも確認

2.3 原因の深堀

td-agentの何が原因なのかを見ていきます。

調査からtd-agentメジャーバージョンアップにより、buffer/flushの仕様に変更があったようです。バージョンアップ前はbufferからのflushは10分未満で終わってましたが、バージョンアップ後は1ログあたりのflushに平均30分かかっていることがわかりました。そのため、flush自体に時間がかかっていることが原因で問題が発生していると仮定しました。
(参考)
Buffer Pluginsのv0.12/v1.0
Fluentd (td-agent) のバージョンアップ [td-agent2 から td-agent3 へバージョンアップ]

3.対策立案

flush自体に時間がかかっていることが原因で問題が発生していると仮定し、以下3案を比較しました。

  1. 1時間に1回のflushを、ログ連携元サーバからログ連携都度flushに変更
  2. 1時間に1回のflushから変更せず、flush時のスレッド数を増やす
  3. 1時間に1回のflushから変更せず、I/O・スループット性能の高いインスタンスタイプ・EBSボリュームに変更

 
以下比較より案1/2が候補となりますが、効果が高い案1を採用しました。

比較軸 案1 案2 案3
コスト
追加コスト無

追加コスト無

インスタンスタイプ・EBSボリュームの差額が発生
追加コストの承認作業が発生
時間
td-agent.confの変更、MWレベルの再起動のみ(案2より変更箇所多)

td-agent.confの変更、MWレベルの再起動のみ

インスタンスタイプ・EBSボリュームの変更、OSレベルの再起動が必要
効果
即flushするためログ遅延発生確率が低

1ログあたりのflushに時間を要しているため出力時間大幅短縮の見込みが薄い

高性能へ変更するため効果大

今回は案1を採用しましたが、以下の場合はそれぞれの案が優位だと考えます。

  • 案2を採用する場合
    • ログのS3出力頻度が1時間に1回よりも少なくて良い場合
    • ログ種別が多かったり、など並列処理の効果が見込まれる場合
      ※CPUリソースに余裕がある必要有り
    • 1ログあたりのflushに時間を要してない場合
       
  • 案3を採用する場合
    • CPUやI/Oなどがボトルネックである場合
    • 長期的にログ量増が見込まれる場合
    • 一時的なサービス断が許容される場合
    • 追加コストを許容する場合
      • 標準インスタンスに対してEBS帯域を強化した「r5b.xlarge」を選択する場合
        • オンデマンド時間単価が「USD 0.252」から「USD 0.298」に値上がります
          r5.xlargeの場合
          image.png
          r5b.xlargeの場合
          image.png
          参考Amazon EC2 オンデマンド料金
           
      • EBSタイプを「プロビジョンド IOPS SSD (io2) - IOPS」に変更した場合

案3を採用する場合、以下2点の注意が必要です。

4.対策実施

案1「1時間に1回のflushを、ログ連携元サーバからログ連携都度flushに変更」を実施します。
image.png

変更点

  • appendパラメータ
    • 既存ファイルにflushするかどうかの設定
    • 既存ファイルに追記する形でflushするため「true」を指定
       
  • time_slice_formatパラメータ
    • 出力ファイルフォーマットの設定
    • 連番を付与するためファイル名末尾に「_0」を追加
       
  • flush_modeパラメータ
    • flushの動作モードの設定
    • ログ連携され都度flushするため「immediate」を指定
       
  • timekey_waitパラメータ
    • flushタイミングの設定
    • 現行では毎時10分flushのため「10m」を指定してたが、都度flushに変更するため削除

  
変更前

<match log.data/fluentd/pdca**>
  @type file
  path /${tag[1]}/${tag[2]}
  format single_value
  symlink_path /${tag[1]}/${tag[2]}.log  
 time_slice_format %Y%m%d%H_${tag[3]}_1a
  compress gzip
  <buffer tag, time>
    @type file
    path /data/fluentd/pdca/log/
    flush_at_shutdown true
    queue_limit_length 512
    chunk_limit_size 256m
    timekey 60m
    timekey_wait 10m
  </buffer>
</match>

変更後

<match log.data/fluentd/pdca**>
  @type file
  append true
  path /${tag[1]}/${tag[2]}
  format single_value
  symlink_path /${tag[1]}/${tag[2]}.log  
 time_slice_format %Y%m%d%H_${tag[3]}_1a_0
  compress gzip
  <buffer tag, time>
    @type file
    flush_mode immediate
    path /data/fluentd/pdca/log/
    flush_at_shutdown true
    queue_limit_length 512
    chunk_limit_size 256m
    timekey 60m
    timekey_wait 10m
  </buffer>
</match>

5.設定変更による影響調査

遅延発生時と同じ条件で負荷掛け試験を実施したところ、CPU使用率・I/Oともに微増したが軽微なものであったため問題ないことを確認しました。

6.おわりに

EC2×td-agent構成におけるログ連携遅延でお困りの方の参考になれば幸いです。

※本ブログに記載した内容は個人の見解であり、所属する会社・組織とは関係ありません。また、誤った情報が含まれる可能性もありますのでご留意ください。

4
5
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
4
5

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?