RDS for Oracleの極限チューニングとSageMakerによる「予知型」スケーリングの実装

Last updated at 2025-11-28Posted at 2025-04-10

【AWS Top Engineer 2025】生命保険システムの核心へ挑む：RDS for Oracleの極限チューニングとSageMakerによる「予知型」スケーリングの実装

1. はじめに：クラウドの「物理の壁」を超えるために

生命保険業界の基幹システムをAWSへ移行する。いわゆるLift & Shiftプロジェクトにおいて、多くのエンジニアが直面する「不都合な真実」がある。それは、オンプレミス時代のハイエンドSANストレージが提供していた圧倒的な低レイテンシと、クラウドのネットワーク接続型ストレージ（EBS）との間に横たわる、物理的な特性のギャップだ。

想像してみてほしい。移行プロジェクトのリリース祝いを終え、安堵して眠りについた翌朝。緊急連絡で叩き起こされる。「夜間バッチが終わっていません」。背筋が凍る瞬間だ。

特に数千万件の契約データを処理する夜間バッチにおいて、I/Oレイテンシのわずか数ミリ秒の悪化は、積もり積もって数時間の遅延に化ける。「クラウドに行ったら遅くなった」なんて評価は、エンジニアとしてのプライドが許さない。

だから今回は、単なるベストプラクティスの羅列はやめようと思う。「io2 Block Expressによる物理限界への挑戦」、そして**「SageMaker DeepARを用いた予測的スケーリング（Predictive Scaling）」**。SLAを死守しつつ、コストという現実とも折り合いをつける。そんな、泥臭くも次世代的なアーキテクチャの話をしたい。

2. アーキテクチャと課題の深掘り (Deep Dive)

2.1. ボトルネックの正体：log_file_sync と EBSレイテンシ

オンプレミスから移行したOracle Databaseでバッチが遅延しているとき、AWRレポートを開く手は重い。そして、Top Wait Eventsを見てまた溜息をつくことになる。たいていの場合、犯人は log_file_sync か db file sequential read だからだ。

RDS for Oracleにおいて、コミット処理はEBSへの永続化を待つ宿命にある。汎用SSD（gp3）を使っていれば、バーストクレジットの枯渇やマイクロバーストでレイテンシが揺らぐ瞬間が必ず来る。基幹バッチのような「超高密度書き込み」の世界では、この一瞬の揺らぎが致命傷になりかねない。

2.2. 全体アーキテクチャ：AIによる「先読み」の実装

負荷が上がってから慌ててリソースを足す「Reactive」なスケーリングは、もう古いし、DBには間に合わない。我々が欲しいのは、バッチが始まる前に準備を整えてくれる「Proactive」な仕組みだ。

全体像はこんな感じになる。

3. Solution A：Infrastructure Layer（物理層の極限化）

まずは足回りだ。I/O性能を物理の限界まで引き上げておく必要がある。

3.1. io2 Block Express と R6i インスタンスの結合

2025年の今、基幹系RDSで戦うなら io2 Block Express 一択と言っていい。かつての io1 とはモノが違う。Nitro Systemと統合されたBlock Expressアーキテクチャは、サブミリ秒の安定したレイテンシと、最大 256,000 IOPS を叩き出す。まるでSANストレージをそのままクラウドに持ってきたような感覚だ。

ただ、落とし穴もある。io2 Block Expressのバケモノじみた性能を引き出すには、受け止めるインスタンス側も重要だ。ケチって小さいインスタンスを使うと帯域幅がボトルネックになる。db.r6i.12xlarge 以上など、EBS帯域幅が十分に確保されたインスタンスを選ばないと、宝の持ち腐れになるので注意してほしい。

3.2. Terraformによる「攻め」のパラメータ設定

Oracleのデータ整合性は絶対に守る。でも、パフォーマンスも譲れない。そのギリギリを攻めるのがプロの仕事だ。ここでは commit_logging を調整して「書き込みの非同期化」のリスクとトレードオフを、Terraformコードで管理する例を示そう。

resource "aws_db_parameter_group" "oracle_mission_critical" {
  name   = "oracle-ee-19-mission-critical"
  family = "oracle-ee-19"
  description = "Optimized for Batch Processing with io2"

  # 【重要】REDOログ書き込みのバッチ化。
  # 障害時に数秒間のデータロストリスクがある。
  # バッチの再実行性を担保した上で、この劇的な性能向上を取りに行く。
  parameter {
    name  = "commit_logging"
    value = "batch" 
    apply_method = "immediate"
  }

  # LGWRによる書き込み完了を待たずに制御を戻す。
  # I/O Wait時間をアプリケーションから隠蔽するテクニック。
  parameter {
    name  = "commit_wait"
    value = "nowait"
    apply_method = "immediate"
  }

  # Checkpoint頻度の調整（I/Oスパイクの平準化）
  parameter {
    name = "log_checkpoint_interval"
    value = "2000000" # 環境に合わせてチューニング
    apply_method = "immediate"
  }
}

resource "aws_db_instance" "core" {
  identifier = "prod-core-db"
  # Block Express対応インスタンス
  instance_class    = "db.r6i.24xlarge" 
  storage_type      = "io2"
  allocated_storage = 10000
  # ベースラインIOPS。予測スケーリングでここを動的に変更する
  iops              = 80000 
  
  # ... (その他設定)
}

4. Solution B：Intelligence Layer（予知型スケーリングの実装）

ここからが本題。この記事のハイライトだ。CloudWatchのアラームでAutoscalingなんて、事後対応にもほどがある。スパイクしてから動いても手遅れなのだ。
SageMakerを使って**「今夜のバッチが重くなること」**を事前に察知し、先回りしてIOPSを引き上げる。

4.1. アルゴリズム選定：DeepAR+

単純な回帰分析でお茶を濁すつもりはない。**SageMaker DeepAR+（教師あり学習アルゴリズム）**を採用する。
なぜなら、生命保険システムには人間臭い「季節性」があるからだ。「今日は五十日（ごとおび）だから忙しい」「月末・月初は申し込みが集中する」「年次決算は別格」といったリズム。
DeepAR+は、こうしたカレンダー情報（動的特徴量）と過去の時系列データ（ターゲット時系列）を組み合わせ、確率的な予測を行うのにうってつけだ。

4.2. 推論とRDS変更を実行するLambdaロジック (Python)

予測値を元に、RDSのAPIを叩くLambdaの実装（抜粋）を見てほしい。
ここで大事なのは、**「RDSが変更中（Modifying）なら手を出さない」という排他制御と、「予測値を過信せずバッファを持たせる」**という安全策だ。

import boto3
import json
import os

rds = boto3.client('rds')
sm_runtime = boto3.client('sagemaker-runtime')

DB_INSTANCE_ID = os.environ['DB_INSTANCE_ID']
ENDPOINT_NAME = os.environ['ENDPOINT_NAME']
SAFE_BUFFER_RATIO = 1.2  # 予測値の1.2倍を確保する安全係数。最後は余裕がモノを言う。

def lambda_handler(event, context):
    # 1. RDSの現在のステータスを確認 (排他制御)
    instances = rds.describe_db_instances(DBInstanceIdentifier=DB_INSTANCE_ID)
    current_status = instances['DBInstances'][0]['DBInstanceStatus']
    
    if current_status != 'available':
        print(f"RDS is currently {current_status}. Skipping scaling.")
        return

    # 2. SageMakerへ推論リクエスト (今夜のピークIOPS予測)
    # ペイロードには現在の日時や「月末フラグ」などの特徴量を含める
    payload = generate_prediction_payload() 
    response = sm_runtime.invoke_endpoint(
        EndpointName=ENDPOINT_NAME,
        ContentType='application/json',
        Body=json.dumps(payload)
    )
    result = json.loads(response['Body'].read().decode())
    
    # 3. 予測IOPSの算出
    predicted_iops = result['predictions'][0]['mean']
    target_iops = int(predicted_iops * SAFE_BUFFER_RATIO)
    
    current_iops = instances['DBInstances'][0]['Iops']
    
    # 4. スケーリング判定と実行
    # 変更幅が小さい場合は無視する（API制限とコストの考慮）
    if target_iops > current_iops * 1.1: 
        print(f"Scaling Up IOPS from {current_iops} to {target_iops}")
        rds.modify_db_instance(
            DBInstanceIdentifier=DB_INSTANCE_ID,
            Iops=target_iops,
            ApplyImmediately=True
        )
    else:
        print("Predicted load is within current capacity.")

5. エンタープライズにおける注意点 (Caveats & Governance)

技術的に面白くても、運用に乗らなければただの実験だ。現場で使うにはガバナンスが必要になる。

5.1. 変更の「不可逆性」とクールダウン

RDS for Oracleのストレージ変更、特にIOPS増強には時間がかかる。数分、あるいは数十分。さらに、一度変更すると、次の変更まで6時間（ストレージタイプによっては24時間）待たされることもある。「やってしまった」では済まないのだ。

だから、スケーリングロジックは慎重に組むべきだ。「1日1回、バッチ開始の1時間前にのみ実行（Upscale）」し、「バッチ終了後の朝にベースラインに戻す（Downscale）」。EventBridgeでガチガチにスケジュールを組んで、頻繁なUp/Downは避けるのが定石だろう。

5.2. コスト vs リスク（ROI）

正直に言おう、io2 Block ExpressのプロビジョンドIOPSは高い。
だが、「通常時は20,000 IOPS、月末のみ80,000 IOPS」という制御をSageMakerで自動化できたらどうだろう？ 常に80,000 IOPSを確保する構成に比べて、月額コストを40%以上削減できる試算が出ている。
SageMakerの推論コスト（Serverless Inferenceなら月額数ドル）なんて、この削減額に比べれば誤差みたいなものだ。

6. まとめ：AIと共に「眠れる夜」を取り戻す

今回、生命保険システムのRDS移行におけるパフォーマンス課題に対し、二つの矢を放った。

一つは物理層。io2 Block Express とパラメータ最適化で、オンプレミスに負けない足腰を作った。
もう一つは知能層。SageMaker DeepAR+ で、ビジネスサイクル（月末・決算）を理解した予測的リソース制御を組み込んだ。

我々Level 300以上のエンジニアの仕事は、単に「動くインフラ」を作ることじゃない。AWSのマネージドサービスをパズルのように組み合わせ、**「ビジネスの波に合わせて呼吸するインフラ」**を構築することだ。

このアーキテクチャが動けば、もう夜中の電話に怯えることはない。安らかな眠りを手に入れること。それこそが、究極のエンジニアリング成果だと信じている。

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up