はじめに
シャーディングとは、データが大量にあるとき、データを複数サーバーに分散させる手法のことです。
MongoDBの設計では、シャーディングを前提として設計することがデザインパターンとされるほど、重要な要素です。
シャーディングを理解する際、横文字が多く、理解しづらい部分ではありますが、この記事では図を使ってわかりやすく解説していきます!
備考
本記事では、シャーディングの概要をメインで解説し、実際の設定やデモは別記事に記載します。
シャーディングとは?
シャーディングは水平負荷分散です。
水平にスケーリングするとは、サーバーを追加することです。必要に応じてサーバーを拡張できます。これにより、クエリの作業負荷が分散され、システムの処理能力が向上し、より多くのリクエストに対応できるようになります。
上の図に、シャーディングのイメージを載せています。
APサーバーから「ドキュメント1」がほしいという指令が来た時、どちらのシャードに「ドキュメント1」が配置されているかを判断し、シャード1からデータを取得します。
シャードとは「破片(shard)」という意味で、シャーディングしたデータを格納しているサーバーをシャードサーバーと呼びます。
シャーディングの利点
シャーディングの利点は、負荷分散によるパフォーマンス向上です。
データを複数サーバに分散させることにより、CPUやI/O負荷を分散させることが可能です。
チャンクとは?
シャーディングを理解する上でチャンクという概念を知っておく必要があります。
チャンクとはデータの塊を意味し、分割した断片データをサイズで区切り、グループ化したものです。MongoDBはデフォルトで64MBごとに、1チャンクが生成されます。
シャードの中に複数のチャンクが存在し、さらにそのチャンクの中にグループ化されたドキュメント(データ)が存在します。
おまけ:パーティションとの違い
シャーディングと似た機能で、パーティションという負荷分散の手法があります。
データを小さく分割するという意味で、シャーディングはパーティションと同じです。
シャーディングは、データを複数サーバーに分散させるのに対し、パーティションは1つのデータベースサーバーに格納するという違いがあります。
MongoDBにおけるシャーディング
まず、MongoDBにおける、シャーディングの構成を説明します。
MongoDBでシャーディングをするには、シャードサーバーとは別に、mongosとconfigという2つのサーバーが必要です。
mongosとconfigサーバーは、以下のような役割があります。
mongos
システムは、mongosに問い合わせを行い、その結果を返します。mongosは軽量プロセスであるため、通常はAPサーバー内に入れます。
config
シャーディングの設定を保存しています。どのシャードにどのデータが入っているかを管理しています。mongosから問い合わせを受け、必要なシャード情報を渡してあげます。
MongoDBのシャーディングの行われ方
MongoDBではシャーディングは自動で行われます。これをオートバランシングと呼びます。
オートバランシングにより、各シャードサーバーのチャンク数に一定の差がでると、自動でチャンクを空いているシャードサーバーへ移動させます。
シャードキー(ここ重要)
シャードキーはデータを分散する範囲の指標となるキーです。複数指定できます。
シャードキーによって、チャンクがどの範囲で分割されるか決定され、その後、オートバランシングによって各シャードに配置されます。このシャードキーをどのフィールドに設定するかで、パフォーマンスに影響が出るため、シャードキーの設計が非常に重要になります。
例えば、従業員の毎月の給料を管理しているコレクションがあるとします。
従業員IDをシャードキーとすると、次のようにチャンクが分割されます。
チャンク | 従業員ID(シャードキー) | 年月 | 給料 |
---|---|---|---|
1 | 101 | 2023-01 | ¥300,000 |
1 | 101 | 2023-02 | ¥320,000 |
1 | 101 | 2023-03 | ¥310,000 |
2 | 102 | 2023-01 | ¥505,000 |
2 | 102 | 2023-02 | ¥525,000 |
2 | 102 | 2023-03 | ¥515,000 |
... | ... | ... | ... |
この場合、従業員IDを昇順し、チャンクを分割しています。チャンクの分割は、データのサイズやデータの件数で分割されていきます。
おわりに
シャーディングについて、図を使って解説しました。
参考文献
MongoDB解体新書