More than 5 years have passed since last update.

NoSQLについてちゃんと学ぶ

Posted at 2019-10-07

はじめに　

先日よく使うDocker構成について記載したこちらの記事を公開しました。
最近よく使っているDocker構成の備忘録 (NodeJS+Redis+MySQL)

様々な用途で、NoSQLの利用シーンがあるかと思いますが、NoSQLと分類されるものって非常に多くありますよね。
その中で上記の記事の中ではRedisをキャッシュ機構目的で利用していましたが、NoSQLの製品からどれを選択するかで悩んだ時に具体的な違いを意識したことがないと思ったので、メモの目的でこの記事を記載しています。

NoSQLとは

NoSQLはRDBMS以外のデータベース管理システムを指すおおまかな分類語で、Not Only SQLの略です。
主な製品としては、
Redis、MongoDB、DynamoDB、Neo4j、Memcached
などがあります。

NoSQLが必要とされた背景

NoSQLはRDBMSの弱みを補う事ができるソリューションとして用いられる事がほとんどなので、まずはRDBMSの強み弱みを整理したいと思います。

RDBMSの強み

NoSQLが必要とされた背景の前にRDBMSについて整理したいと思います。
RDBMSの強みとしては以下のようなものがあげられるかと思います。

データの一貫性（トランザクション）
更新時のコストが少ない
SQLによる複雑な条件での検索や集計

RDBMSを利用することの最大のメリットはデータの一貫性が保証されているということだと思います。
データの一貫性が厳しく求められるようなケースにはRDBMSを利用することがよいとおもいます。
また、RDBMSを利用する場合にはJOINすることを前提としてテーブルが正規化されているので、データの更新時にかかるコストは非常に少なくなることも強みと言えるでしょう。

RDBMSの弱み

RDBMSの弱みは以下のようなものがあるかと思います。

スケーラビリティ
インデックス作成コスト

弱みの一つとしてスケーラビリティと記載しましたが、
RDBMSの場合、データの読み込み部分についてはマスタースレーブ構成にしてレプリケーションすることができるので、スレーブを増やすことで比較的簡単にスケールさせることが可能です。

しかしながら、書き込み部分をスケールさせるのは難しいです。
互いにレプリケーションし合うデュアルマスタ構成をもちいる方法も考えられますが、正しく制御できない場合、更新処理が競合する可能性があるため、導入が難しいかと思います。
特にテーブル毎にクエリの発行先を振り分けるなどの対応が必要になるため、導入するのが簡単だとは言い難いです。

他の方法としては、そもそもDB分割してサーバを分けるという選択肢も考えられます。
サーバを分けることで、ディスクIOを減らす事ができるのでインメモリで高速に処理するためにもデータサイズが減らせるDB分割は効果的です。
比較的解決策として良さそうに感じるかもしれませんが、複数台のサーバに分割する場合には他のサーバのテーブルとはJOINができないので、それを考慮してDB分割する必要があるので、正しい設計が必要になります。

また、RDBMSの場合はインデックス戦略が検索速度向上の目的で用いられるかと思います。
しかしながら、データ量が多いとインデックスの追加によってテーブルが長時間ロックされてしまう点も注意をしなければなりません。

NoSQLが必要になった理由

RDBMSのメリット・デメリットを整理したところで、なぜNoSQLが必要になったかを記載していきます。
NoSQLが必要となった背景の一つとして、取り扱われるビッグデータの特性が重要になります。

ビッグデータの特性

ビッグデータを取り扱うに到り５つの必要な特性があります。
それは以下の５つと言われています。

量 (Volume)
- 多様かつ大量なデータを扱う必要性
速度 (Velocity)
- データへのリアルタイムアクセス
- データの意味合いの変化速度
多様性 (Variety)
- 構造化データや非構造化データなどの多種多様なデータの多様性
正確さ (Veracity)
- データの正確さや一貫性に関する要件
変動性 (Variability)
- コンテキストによってデータの意味が変動する

つまりデータとは「大きく」「速く」「複雑」で、「変化する」ものであることがわかります。
上記五つの特性を意識した時にビッグデータを扱う上では、RDBMSだとうまく行かない理由があります。

「量」と「速度」に対するRDBMSのデメリット

データ量の増加と処理速度の増加が課題となった時に、RDBMSでは「スケーラビリティ」の観点で非常に不得手になってしまいます。
といいますのも、RDBは原則として1台のサーバで実行するように設計されているからです。
RDBMS自体のスケールアップする必要がある場合には、より巨大・複雑で高価なハードウェアを購入しなくてはならないといった事態も起こり得ます。
また、スケールアウトを行うを行う場合には前述したようにRDBMSでは非常に高コストになってしまうため、向いていません。

「多様性」に対するRDBMSのデメリット

非構造化データを扱うことをRDBはあまり得意としていません。
というのもRDBには以下の特性があるからです。

格納前に構造定義をする必要がある。
データソースの構造が変更された場合、スキーマを変更する必要がある。
非構造データでは事前に構造を把握することは難しくスキーマ定義ができない。

これらの理由から非構造データを扱かうことに対してはRDBMSを選択することはあまり向いていません。

NoSQLなら解決できる？

結論から述べるとこれらの課題を解決する事が可能です。
それはNoSQLが以下のような特性を持つからです。

NoSQLは複数台のサーバ構成を利用した水平分散が得意。(Sharding)
NoSQLは構造定義を必要とせずにデータを格納できる。

水平分散

NoSQLはShardingにより複数のサーバにデータを分散化させています。
もともと水平分散をするように作られているため、非常に安価で構築が容易になります。
サーバを分散化させる事ができる最大のメリットはデータがメモリに乗りやすい事だと思います。
どうしても１台で賄う必要のあるRDBMSでは大量のデータを扱う場合にメモリから溢れてしまいますが、スケールアウトに富んだNoSQLであればある程度メモリ上に載せる事ができます。

データをグラフ構造で格納するデータベースです。
ネットワーク状のデータを格納するのに適しています。
データ間のリレーションに重心を置いたデータベースといえるでしょう。

sample

まとめ

NoSQLと言ってもいろいろな種類があり、DBごとに特性も異なることがわかります。
また、RDBと共存関係にあり、RDBを置き換えるものではありません。
取り扱うデータがどのようなものなのかを判別して、RDBMSを利用するのかNoSQLを利用するのかを選択し、
適材適所でしっかり使い分けができるようにしておきましょう。

参考文献

NoSQLの必要性と主要プロダクトの比較
 NoSQLの時代：ドキュメントモデルの活用
 なぜ「NoSQLデータベース」なのか？

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up