【プログラマのためのSQL 4章】ロケータと特別な数

Last updated at 2018-12-21Posted at 2018-12-21

はじめに

ロケータとは、そのデータが物理ストレージ上のどこにあるのかを示す機能、値のこと。
各DB製品ごとに独自仕様のロケータを持っている。

SQLではキーを利用するが論理的なものなので、本来は物理的ストレージとは無縁のものである。
物理的なロケータをキーやサロゲートキーのように扱うことは、RDBの思想から外れる。

OracleDB等に存在するロケータ。
HDDなどのディスクにおける行の物理アドレスを示す。
HDDヘッドはダイレクトに物理アドレスにアクセスできるので、
RoWIDを指定する検索は、アクセスパスとしては最速である。

しかし、これを扱うということは、行がストレージ上に物理的に並ぶことを前提にしているので、
ハッシュや分散データベースのような技術との相性は悪い。

データが追加される度に一意となる値を自動生成する。
その性質上、主キー制約やユニーク制約をつける。

IDENTITY列やシーケンスなどの自動インクリメントの機能は、
物理的なロケータをユーザに意識させるため、RDBの方針に反している。

※リレーショナルデータベースが満たすべき12の法則(コッドの12の法則)から抜粋

データベースを扱うアプリケーションは、データの物理的レベルにおける表現形式に依存せず、物理的変更があってもアプリケーションは影響を受けない

その値が妥当かどうかを確認する手段がない。

SQLServerなどではIDENTITY列は1テーブルに1つしか作れない。

IDENTITYを持つテーブルに対して、同じINSERT文を複数回実行すると結果が毎回異なる。(RDBMSとしては、全ての行について全ての属性が同じ値なら結果は同じになるはず)

データベース全体で一意となる識別子を生成する方法もいくつかある。

関係データベースの生みの親、エドガー・F・コッドとしては、
関係データベースにおいて重複行は許さない方針だったようです。
集合論的な考えに基づくと重複行は発生し得ないですね。

しかし、標準SQLとしては重複行を許しています。
「テーブルはエンティティ、クラス、エンティティの関係を表すこともできる」というオブジェクト指向なデータの見方をしているからで、非正規化されたデータをデータベースで扱えるようにするために許容しているようです。

後半は、どのように一意な値を生成するかという話でした。
数列、素数、乱数を使って値を生成するよ、という話が載っています。(割愛)

小難しい話だったので読み飛ばしました。

この章のポイントは
「物理ロケータはリレーショナルデータベース本来の方針に反するものなので、安易に採用するべきではない」
ということに尽きると思います。

メリットとデメリットを押さえた上で使いたいところですね。