More than 3 years have passed since last update.

RDS / Aurora のパフォーマンスインサイト API を使って S3 に分単位の SQL トップ 10 を転記する

Last updated at 2021-05-31Posted at 2021-04-26

AWS の RDS / Aurora には、各インスタンスの負荷状況を可視化するパフォーマンスインサイトという機能があります。

マネジメントコンソールを使うとパフォーマンスインサイトの情報がグラフ化されるので見やすくて便利ですね。ただし、

追加費用なく保管できる期間が 30 日
- 追加費用を払えば 2 年間
画面上の表示期間を長くすればするほど、待機イベント・SQL（文）など細部の情報が欠落しやすくなる
- 詳しくはこちらのスライドを参照してください
  - RDS / Aurora パフォーマンスインサイトを使ってみる（PostgreSQL 編） P.15
  - RDS / Aurora パフォーマンスインサイトを使ってみる（ちょっとだけ API 編） P.19

といった注意点もあります。

パフォーマンスインサイトを DB チューニングに使う

DB まわりのチューニングというと、大きく分けて

DB の設定や構成をチューニング
SQL（文）をチューニング

が考えられますが、ここでは後者を考えます。

どのような処理が性能上のネックになっているのかを知るには待機イベントの分析も良いのですが、実際に SQL（文）をチューニングするときは**よく実行される SQL（文）・処理に時間がかかる SQL（文）**を優先して、効率的な実行計画が採用されるように調整するほうが一般的だと思います。

そこで、今回はパフォーマンスインサイトの情報のうち、トークン化（正規化）された SQL（文）トップ 10 を分単位で抽出して S3 バケットに転記する Lambda 関数を作ってみました。

2021/05/30 追記：
待機イベント内訳も転記する方法を別記事として追加しました。

RDS / Aurora のパフォーマンスインサイト API を使って S3 に SQL トップ 10 とその待機イベント内訳を転記する

S3 転記用 Lambda 関数の内容

以下のとおりです。GitHub にも置いてあります。

コード（Python 3.8）

lambda_function.py

import boto3
from datetime import date, datetime, timedelta
import os

db_id     = os.environ["DB_ID"]
s3_bucket = os.environ["S3_BUCKET"]

def lambda_handler(event, context):
    # 1時間前の時刻を取得（UTC）→対象時間のPerformance InsightsからS3へ
    lasthour = (datetime.today() + timedelta(hours = -1)).replace(minute=0, second=0, microsecond=0)

    print("Export: " + (lasthour + timedelta(hours = 9)).strftime('%Y/%m/%d %H:00-%H:59'))
    # 1分ごとに上位最大10件の正規化SQLを取得してS3へ転記
    for minute in range(60):
        # Performance Insightsからデータを取得
        pi_client = boto3.client("pi")
        starttime = lasthour + timedelta(minutes = minute)
        response = pi_client.describe_dimension_keys(
                ServiceType="RDS",
                Identifier=db_id,
                StartTime=starttime,
                EndTime=starttime + timedelta(minutes = 1),
                Metric="db.load.avg",
                PeriodInSeconds=60,
                GroupBy={
                    "Group": "db.sql_tokenized",
                    "Dimensions": [
                        "db.sql_tokenized.statement"
                    ],
                    "Limit": 10
                    }
                )
        if len(response["Keys"]):
            # 対象となる時刻（分単位）のデータがあればS3へ転記（プレフィクスの時刻はJST）
            s3_prefix  = db_id + "/" + (starttime + timedelta(hours = 9)).strftime('%Y/%m/%d/%Y%m%d%H%M') + "_" + db_id + ".tsv"
            exporttime = starttime.strftime('%Y-%m-%dT%H:%M:%SZ')
            body_data  = "start_time\tsql_tokenized\ttotal\n"
            # すべてのKeysから正規化SQLと合計値を抽出
            for item in response["Keys"]:
                sqltk = item["Dimensions"]["db.sql_tokenized.statement"]
                total = item["Total"]
                body_data += exporttime + "\t" + sqltk + "\t" + str(total) + "\n"
            # S3へ
            s3_client = boto3.client("s3")
            s3_client.put_object(
                    Bucket=s3_bucket,
                    Key=s3_prefix,
                    Body=body_data
                    )
    return "Completed."

設定など

タイムアウトは 2 ～ 3 分程度に

トリガーで 1 時間ごとの実行を指定（毎時 5 ～ 10 分頃に実行）

ロールは Lambda の一般的な権限に、S3 バケットアップロード権限＋パフォーマンスインサイトフル権限＋（必要に応じて KMS ユーザー権限）を追加

ロールに設定するポリシー（追加部分）

        {
            "Effect": "Allow",
            "Action": "s3:*",
            "Resource": [
                "【転送先S3バケットのARN】",
                "【転送先S3バケットのARN】/*"
            ]
        },
        {
            "Effect": "Allow",
            "Action": "pi:*",
            "Resource": "arn:aws:pi:*:*:metrics/rds/*"
        },
        {
            "Effect": "Allow",
            "Action": [
                "kms:Encrypt",
                "kms:Decrypt",
                "kms:ReEncrypt*",
                "kms:GenerateDataKey*",
                "kms:DescribeKey"
            ],
            "Resource": "【Performance Insightsの暗号化用KMSのARN（※）】"
        }