インデックス付与したらDBインスタンスを最大6台から2台に削減した話

Last updated at 2024-05-12Posted at 2024-05-11

自己紹介

私は、現在とあるWeb系のベンチャーでWebアプリケーションエンジニアとして開発業務に従事しています。

今回の記事では以前勤務していた株式会社ZUUでの開発に関して投稿したいと思います。

今回は肥大化したDBにインデックスを付与することで、DBインスタンス数を最大6台から2台までに改善することができたので説明していきたいと思います。

本記事は個人の見解です。

サービスについて

株式会社ZUUでは金融に関する記事を掲載する様々なメディアを運営しています。

ZUU Onlineやfuelle、MoneyTimes、dメニューマネー、その他にも多数メディアを運営しております。

一部メディアでは、ユーザー機能を提供しており、その中にお気に入りの記事をクリップする機能などがあります。

概要

弊社の顔でもZUU onlineは、ローンチして約○年経ち、記事数やユーザー数ともに大きく成長しました。ただその一方でパフォーマンスの劣化などが問題となりユーザビリティを下げてしまうことに課題がありました。

前提

使用しているDBMSはPostgreSQL12です。

今回改善したクエリを簡単な図で説明します。

運用しているメディアでは、ユーザーが記事をクリップする機能が提供されています。

その一部であるユーザーごとにクリップを取得する機能がボトルネックとなっていました。

（以下のテーブルは例です。実際のテーブルとは異なります。）

それぞれおおよそ以下のレコード数を持っています。

テーブル名	レコード数
articles	120,000
article_clips	2,800,000
users	200,000

スロークエリの分析

スロークエリが判明したので、実行計画をもとに分析していきます。

問題のクエリ

コストを確認する

まずはどこのデータの取得で実行時間がかかっているのか分析するため、コストを確認します。
分析したところ上から三番目のusersテーブルをJoinする処理にて、実行時間のほとんどを費やしていることがわかりました。

Seq Scan on users (cost=0.00..649209.11 rows=14315247 width=8) (actual time=0.028..5288.640 rows=14316944 loops=1)

ここからわかることは3つあります。

Seq Scan on users：usersテーブルに対して、シーケンシャルスキャンによるデータの結合を行っている
rows=14315247：処理が行われる対象の行数が推定14315247行
(actual time=0.028..5288.640)：処理が行われる全体コスト5288.640ms

分析結果

article_clipsテーブルとusersテーブルのJoin時に全ての行に対して問い合わせを行い結合が行われることで約5.2秒という長い処理が行われていたことが原因です。

そのため、インデックスを付与することで必要最低限の問い合わせを行い結合するようにパフォーマンスチューニングをしました。

インデックスの付与

以下がインデックス付与後の実行計画です。

インデックスが適用され、大幅にパフォーマンスが改善されたことを確認しました。

インデックス付与の懸念

インデックスを付与するにあたり、以下のパフォーマンス劣化の

インデックス付与前後でのデータ更新(INSERT、UPDATE、DELETE)
インデックスの付与実行時に更新処理

インデックスの付与実行時に更新処理が著しく重くなるなどの懸念がありました。

そこで本番環境のDBをクローンし、検証を行ったところ約8秒のかかることがわかりました。

そのため、ピークの時間帯を避けてのインデックスの付与を行うことにしました。

処理時間の比較

インデックスの付与前後で約1000倍程度の改善を確認することができました。

インデックス付与前

	Planning Time	Execution Time
一回目	5.158 ms	4309.094 ms
二回目	0.604 ms	3437.310 ms
三回目	0.543 ms	3466.844 ms
平均	2.101ms	3737.749ms

インデックス付与後

	Planning Time	Execution Time
一回目	393.074 ms	8.741 ms
二回目	0.541 ms	0.519 ms
三回目	0.541 ms	0.519 ms
平均	131.374ms	3.259ms

DBのCPUの効果

鬼改善しました。正直最初は、ちゃんとメトリクスが収集できていないのではと思いました。

CPU使用率が60%から5%まで改善しました

結果、DBインスタンスを最大6台から2台に削減することができました。（月30万ほどの削減見込み）

まとめ

問題になったクエリは、開発当初からDBに高負荷を与えていたわけではなく、サービスが拡大することによってデータ数が増えたため生じた問題です。

ジョインするテーブルのレコードが300万件を超えているのにも関わらず、 Seq Scanによるデータの取得をしていることが原因で実行時間が3秒を超えるスロークエリとしてDBに高負荷を与えていました。

このように、サービス拡大にするにあたり発生するパフォーマンス劣化を検知する仕組みを用意することの大切さを学びました。

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up