More than 5 years have passed since last update.

ミドルウェアにおけるOSリソースの有効活用　メモリ・ディスク編

Last updated at 2019-10-08Posted at 2019-10-07

はじめに

これまでデータベースや検索エンジンといったミドルウェアをチューニングする機会にたびたび遭遇してきました。
どのようなポイントでチューニングをすれば良いのかを理解するには、ミドルウェアの仕組みを理解する必要があり、
なぜミドルウェアがそのような仕組みになっているかを理解するには、基盤の部分つまりOS（Linux）の仕組みを理解する必要があります。

個人的には、結局どのようなミドルウェアを使用するにも、

いかに効率よく、メモリを使ってディスク上のファイルのデータを扱うか
いかに効率よく、プロセスやスレッドで処理をさばくか

の２点だと思います。

本記事では、上記２点のうち、

いかに効率よく、メモリを使ってディスク上のファイルのデータを扱うか

について、Linuxとミドルウェアがどのように工夫しているのかを、自分なりにまとめたものとなります。

※この記事は都度ブラッシュアップしていきます
※勉強中のため間違っている箇所があるかもしれません、ツッコんでいただけると幸いです

先に要約

なるべくディスク上のファイルのデータをメモリに載せて読み書きしたい（ディスクI/Oを減らす）
そのかわりメモリ上のデータを更新したらファイルにも反映する仕組みが必要（データの永続化）
また更新内容を確実に担保するための仕組みも必要（クラッシュリカバリ）

Linuxではどう工夫しているのか

ディスクI/Oを減らす

ページキャッシュ

TODO 図

Linuxでは、一度ディスクより読み込んだデータはメモリ上にキャッシュされます。
そして次回以降の読み込み処理ではディスクへアクセスせずにキャッシュに対して行われます。
そうすることで読み込みが高速に行われます。

メモリマップトファイル

TODO 図

ディスク上のファイルのデータを仮想アドレス空間上にメモリマップする機能。
システムコールmmapによってメモリマップ処理を行います。
マップされたファイルのデータはメモリへのアクセスと同じように行えるため、ディスクI/Oの削減に効果があります。
ページキャッシュ上のデータへのアクセスについては、システムコールreadやwriteにてアクセスする他に、mmapにより仮想アドレス空間上にメモリマップする方法があります。
マップされたファイルのデータはメモリへのアクセスと同じように行える。

データの永続化

TODO 図

ダーティーページ

ページキャッシュ上で修正されたデータはすぐにはディスク上へ書き込まれません。
書き込みが行われたタイミングで、その都度ディスクへの書き込みが発生するのはパフォーマンス的によろしくないからです。
修正されたデータはダーティーページとよばれ、後述するライトバックの仕組みにより、非同期でディスク上へと書き込まれます。

ライトバック（遅延書き込み）

ページキャッシュ上の修正されたデータであるダーティーページはバックグラウンドプロセスにより、後ほどディスク上のファイルへとフラッシュされます。
なお、明示的にフラッシュさせたい場合は、fsyncやfdatasyncといったシステムコールを呼び出します。

MySQL（InnoDB）ではどう工夫しているのか

ディスクI/Oを減らす

MySQL（InnoDB）ではOSのキャッシュ機構（ページキャッシュ）を使用せずに、独自のキャッシュ機構（バッファプール）を使用することでディスクI/Oの削減を実現しています。

バッファプール

テーブルやインデックスといった主要な情報は、ディスク上のテーブルスペースで管理されています。
クライアントからそれらデータへアクセスする場合は、直接テーブルスペースにいくのではなく、キャッシュ領域であるバッファプールに対して行われます。
仮に欲しいデータがまだバッファプール上にキャッシュされていない場合は、いったんテーブルスペースより取得（フェッチ）してバッファプールへ格納します。
更新処理についても同様にバッファプールに対して行われます。
あくまでもメモリ上のバッファプールに対してアクセスを行うことで、ディスクへのI/Oを減らしています。

ページキャッシュの無効化

ディスクI/Oを減らす手段として、そもそもOSにはページキャッシュが存在します。
しかしながらInnoDBでは、データをキャッシュする手段としてはバッファプールを使用したほうが効率がよい。
そこでページキャッシュを無効化する設定を行うことで、より効率的なデータアクセスを実現しています。

データの永続化

キャッシュ上の更新データをディスク上へと反映する仕組みはLinuxと似たような仕組みとなっています。
都度反映ではなくバックグラウンドで行われます。

ダーティーページ

バッファプールに対して書き込まれた情報は即座にテーブルスペースへと反映（フラッシュ）されません。
都度フラッシュをするとディスクI/Oが頻発し、結果としてパフォーマンスに影響が出てしまうためです。
したがって、テーブルスペースへまだ書き込まれていない、バッファプール上にのみ存在する更新情報（ダーティーページ）が存在することになります。
ダーティーページはバックグラウンドスレッドにより非同期でテーブルスペースへと書き込まれます。

チェックポイント

バッファプール上のダーティーページはあるタイミングでテーブルスペースへフラッシュされます。
チェックポイントとは、あるタイミングでディスクへフラッシュするプロセスで、2種類のチェックポイントが存在します。
通常は定期的に少しずつフラッシュする、ファジーチェックポイントという仕組みを使います。
ファジーチェックポイントではダーティーページの割合やInnoDBログのサイズなどを考慮して、とても"良い塩梅"に少しずつフラッシュしてくれるので、
一度に全てのダーティーページをフラッシュする場合に比べて、ディスクI/Oのオーバーヘッドを分散させることができます。
一方、ダーティーページの割合やInnoDBログのサイズが閾値を超えた場合に発生するシャープチェックポイントは、一度に全てのダーティーページをフラッシュしてしまうので、
パフォーマンスの低下につながります。

クラッシュリカバリ

InnoDBログ

InnoDBログとはデータの更新情報が記録されるファイルです。
InnoDBでは、更新処理が発生した際は、更新情報を先にInnoDBログバッファへ書き込んだあとに、バッファプールへ書き込まれます。
そしてInnoDBログバッファに書き込まれたオペレーション情報は、コミットのたびにInnoDBログへとフラッシュされます。（※）
なぜわざわざInnoDBログでオペレーション情報を保持しているかというと、ダーティーページのフラッシュ漏れを防ぐためです。
仮にダーティーページがフラッシュされていない状態でサーバがダウンしても、InnoDBログのオペレーションを元に更新内容を反映（リカバリ）することができます。

※innodb_flush_log_at_trx_commit=1の場合に限る

PostgreSQLではどう工夫しているのか

ディスクI/Oを減らす

共有バッファ

TODO

データの永続化

ダーティーページ

TODO

チェックポイント

TODO

クラッシュリカバリ

WAL

TODO

Elasticsearchではどう工夫しているのか

TODO 図

ディスクI/Oを減らす

Elasticsearchでは独自のキャッシュ機構（Indexing Buffer）とOSのキャッシュ機構（ページキャッシュ）をうまく利用することでディスクI/Oの削減を実現しています。

Indexing Buffer

データの登録（インデクシング）を行う際は、Indexing Bufferと呼ばれるメモリ領域に対して書き込みが行われます。
ディスクに直接アクセスせずにメモリに対して処理を行うことで、ディスクI/Oの軽減を実現しています。

（ページキャッシュ上の）Segment

Elasticsearchでは、IndexやShardと呼ばれる論理的な概念でデータを管理しています。
さらに内部的にはluceneのSegmentとよばれるファイル単位でデータを物理的に保持しています。
そしてSegmentはページキャッシュ上にキャッシュされます。

前述のIndexing Bufferへと書き込まれた情報は、そのままの状態では検索対象としてヒットしません。
検索処理はページキャッシュ上のSegmentに対して行われるため、キャッシュ上のSegmentへの書き込みが必要となります。
ではどうするのかというと、リフレッシュ処理を行う必要があります。
リフレッシュ処理を行うことで、ページキャッシュ上のSegmentへと更新情報が書き込まれます。

データ検索時も、ディスクに直接アクセスせずに、あくまでもメモリに対して処理が行われるので、ディスクI/Oの軽減が期待できます。

データの永続化

（ディスク上の）Segment

ページキャッシュ上のSegmentは、フラッシュのタイミングでディスク上のSegmentとして作成されます。
フラッシュが行われる契機については、明示的にフラッシュ処理が行われるか、後述するTranslogがいっぱいになった場合のどちらかとなります。
なお、ディスク上のSegmentはいったん作成されると更新不可（Immutable）となります。
そのため、データの更新もしくは削除が発生した場合は、新たなSegmentを作成し、古いSegmentに削除フラグ（.del）が付与されます。
その後Segmentをマージすることで、更新や削除の情報が反映され、最新のSegmentとして永続化されます。

クラッシュリカバリ

Translog

Translogとはデータの登録および削除処理のオペレーションが記録されるファイルです。
そしてTranslogバッファに書き込まれたオペレーション情報は、都度Translogへとフラッシュされます。（※）
なぜわざわざTranslogでオペレーション情報を保持しているかというと、ページキャッシュ上のSegmentのフラッシュ漏れを防ぐためです。
仮にSegmentがフラッシュされていない状態でサーバがダウンしても、Translogのオペレーションを元に更新内容を反映（リカバリ）することができます。

※index.translog.durability=requestの場合に限る

おわりに

TODO

参考書籍・サイト

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up

ミドルウェアにおけるOSリソースの有効活用 メモリ・ディスク編

はじめに

先に要約

Linuxではどう工夫しているのか

ディスクI/Oを減らす

ページキャッシュ

メモリマップトファイル

データの永続化

ダーティーページ

ライトバック（遅延書き込み）

MySQL（InnoDB）ではどう工夫しているのか

ディスクI/Oを減らす

バッファプール

ページキャッシュの無効化

関連パラメータ

データの永続化

ダーティーページ

チェックポイント

関連パラメータ

クラッシュリカバリ

InnoDBログ

関連パラメータ

PostgreSQLではどう工夫しているのか

ディスクI/Oを減らす

共有バッファ

関連パラメータ

データの永続化

ダーティーページ

チェックポイント

関連パラメータ

クラッシュリカバリ

WAL

関連パラメータ

Elasticsearchではどう工夫しているのか

ディスクI/Oを減らす

Indexing Buffer

（ページキャッシュ上の）Segment

関連パラメータ

データの永続化

（ディスク上の）Segment

関連パラメータ

クラッシュリカバリ

Translog

関連パラメータ

おわりに

参考書籍・サイト

ミドルウェアにおけるOSリソースの有効活用　メモリ・ディスク編