UUIDの重複確率を理論と実装からー「本当に一意なのか?」

Posted at 2025-11-03

はじめに

「UUIDって本当に重複しないの?」

分散システムやデータベース設計の現場で、一度は抱いたことのある疑問ではないでしょうか。私も最初にUUIDを採用するとき、「ランダムに生成して本当に衝突しないのか?」という不安がありました。

特に、数千万、数億規模のレコードを扱うシステムでは、万が一の重複がデータ整合性の致命的な問題につながります。そこで本記事では、UUIDv4の重複確率を理論的に計算し、Python実装における実用性を検証します。

この記事で分かること

UUIDv4の構造と生成原理
バースデー問題に基づく重複確率の理論計算
実用規模での重複リスクの定量評価
Python実装における注意点とベストプラクティス

想定読者

UUIDをプロダクションで使用する予定のエンジニア
データベース設計でUUIDを検討している方
確率論的な安全性を理解したい方

UUIDv4の基礎知識

UUIDとは

UUID（Universally Unique Identifier）は、RFC 4122で標準化された128ビットの識別子です。システム間で調整なしに一意なIDを生成できる点が最大の特徴です。

Pythonではuuidモジュールを使って簡単に生成できます:

import uuid

# UUIDv4を生成
uid = uuid.uuid4()
print(uid)
# 出力例: 550e8400-e29b-41d4-a716-446655440000

UUIDv4の構造

UUIDは128ビット（16バイト）で構成されますが、すべてがランダムではありません:

122ビット: 暗号学的に安全な乱数で生成
4ビット: バージョン番号（v4 = 0100）
2ビット: バリアント（RFC 4122準拠を示す）

実際にランダムなのは122ビットなので、可能な組み合わせ数は:

$$
2^{122} = 5.3 \times 10^{36} \text{通り}
$$

この数がどれほど巨大か?
地球上の砂粒の数が約 $10^{18}$ 個と言われているので、その1京倍以上です。

重複確率の理論計算

バースデー問題との関係

UUID重複の確率計算には、「バースデー問題」と同じ数学的原理を使います。

バースデー問題とは:
23人のグループで、誕生日が重複する確率が50%を超える、という一見直感に反する現象です。

UUIDでも同様に、生成数が増えると予想以上に速く重複確率が上昇します。

重複確率の近似式

$n$ 個のUUIDを生成したとき、少なくとも1つ重複する確率 $P$ は:

$$
P \approx \frac{n^2}{2 \times 2^{122}}
$$

この式を導出する過程は以下の通りです:

実用規模での重複確率

では、実際のシステムではどの程度のリスクがあるのでしょうか? 具体的な数値で見てみましょう。

生成数別の重複確率

生成数 $n$	重複確率 $P$	実用性の評価
$10^6$（100万）	$\approx 2 \times 10^{-26}$	完全に無視可能宇宙の年齢回繰り返しても発生しないレベル
$10^9$（10億）	$\approx 2 \times 10^{-20}$	現実的に発生しない原子レベルの事象よりも稀
$10^{12}$（1兆）	$\approx 2 \times 10^{-14}$	理論上ほぼゼロ全人類が毎秒生成しても問題なし
$10^{15}$（1000兆）	$\approx 2 \times 10^{-8}$	天文学的に低い 0.000002%の確率
$10^{18}$（100京）	$\approx 2 \times 10^{-2}$	約2% 初めて無視できないレベル

具体例: 毎秒1億個生成し続けたら?

想像を絶するペースで生成し続けた場合をシミュレーションしてみます:

import math

# 設定
uuids_per_second = 10**8  # 毎秒1億個
seconds_per_year = 365.25 * 24 * 3600
total_combinations = 2**122

# 1年間で生成する数
uuids_per_year = uuids_per_second * seconds_per_year
print(f"1年で生成: {uuids_per_year:.2e}個")

# 重複確率が1%に達するまでの年数
target_probability = 0.01
n_for_1percent = math.sqrt(2 * target_probability * total_combinations)
years = n_for_1percent / uuids_per_year

print(f"重複確率1%に達するまで: {years:.2e}年")
print(f"（宇宙の年齢は約1.38 × 10^10年）")

実行結果:

1年で生成: 3.15e+15個
重複確率1%に達するまで: 2.31e+11年
（宇宙の年齢は約1.38 × 10^10年）

つまり、宇宙の年齢の約17倍の時間が必要です。

Python実装における実践的な注意点

理論上は安全でも、実装ミスで重複リスクが跳ね上がることがあります。

1. 乱数源の品質が全て

Pythonのuuid.uuid4()は、OSの暗号学的乱数生成器（os.urandom()）を使用します:

import uuid
import os

# 推奨: 標準ライブラリを使う
safe_uuid = uuid.uuid4()

# 危険: 疑似乱数を使った自作実装
import random
random.seed(12345)  # 決定論的シード
dangerous_uuid = uuid.UUID(int=random.getrandbits(128), version=4)

重要: randomモジュールは暗号学的に安全ではないため、予測可能性が高まり重複リスクが上昇します。

2. 分散システムでの注意点

複数サーバーで同時にUUIDを生成する場合:

UUIDの最大の利点は、分散環境でも調整が不要な点です。各サーバーが独立して生成しても、理論的な安全性は保たれます。

3. データベース設計での考慮点

プライマリキーとしての使用

from sqlalchemy import Column, String, DateTime
from sqlalchemy.ext.declarative import declarative_base
import uuid
from datetime import datetime

Base = declarative_base()

class User(Base):
    __tablename__ = 'users'

    # UUIDを主キーに使用
    id = Column(String(36), primary_key=True, default=lambda: str(uuid.uuid4()))
    created_at = Column(DateTime, default=datetime.utcnow)

メリット:

連番IDのような枯渇問題がない
分散環境でも衝突しない
URL公開時に情報漏洩リスクが低い（連番だと総数が推測される）

デメリット:

インデックスサイズが大きい（128ビット vs 64ビット）
ランダムなため、B-Treeインデックスの局所性が悪い

インデックス最適化

-- PostgreSQLの場合
CREATE INDEX idx_users_id ON users USING hash (id);

-- UUIDv7（タイムスタンプ順）を使うとさらに改善
-- Python 3.9以降は標準ライブラリに未実装だが、サードパーティ実装あり

重複検出の実装例

理論上は安全でも、念のため検出ロジックを実装するのはベストプラクティスです。

import uuid
from typing import Set

class UUIDManager:
    """UUID生成と重複検出を管理するクラス"""

    def __init__(self):
        self.generated: Set[str] = set()
        self.collision_count = 0

    def generate(self) -> str:
        """UUIDを生成し、重複をチェック"""
        while True:
            new_uuid = str(uuid.uuid4())

            if new_uuid not in self.generated:
                self.generated.add(new_uuid)
                return new_uuid

            # 重複発生（実際にはほぼ起こらない）
            self.collision_count += 1
            print(f"⚠️ 警告: UUID重複検出 ({self.collision_count}回目)")

    def stats(self):
        """統計情報を表示"""
        return {
            "total_generated": len(self.generated),
            "collisions": self.collision_count,
            "collision_rate": self.collision_count / len(self.generated) if self.generated else 0
        }

# 使用例
manager = UUIDManager()
for _ in range(1000000):
    manager.generate()

print(manager.stats())
# 期待結果: {"total_generated": 1000000, "collisions": 0, "collision_rate": 0.0}

まとめ

結論

UUIDv4の重複確率は、現実的な使用規模では事実上ゼロです。

10億個生成しても確率は $10^{-20}$ 以下
毎秒1億個生成しても、宇宙の年齢より長い時間が必要
分散システムでも調整不要で安全に使用可能

実装上の重要ポイント

標準ライブラリを使う: uuid.uuid4()は暗号学的に安全
自作実装は避ける: 特にrandomモジュールの使用は危険
データベース設計では: インデックス戦略を考慮

最後に

「理論上の安全性」と「実装の正しさ」は別物です。UUIDは正しく使えば極めて安全な識別子ですが、その前提は高品質な乱数源にあります。

本記事が、UUIDを採用する際の不安を解消し、自信を持った設計判断の助けになれば幸いです。

参考文献

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up

UUIDの重複確率を理論と実装から ー「本当に一意なのか?」