Mining of Massive Datasets Chap. 4.3 Filtering Streams #MMD

Mining of Massive Datasetsの4.3節の概要を書きます。

4.3.1 A Motivating Example

Bloom filterの構成要素は以下からなる。

集合Sのkey Kに対して、h_i(K)を計算して対応するbitについて、bit-arrayに1を立てる

ここのFigure. 1-4がわかりやすい

原理上、false positiveが発生してしまう。
その確率は、bit-arrayを持つ数でコントロールできる。

ある的にダーツが1本も当たらない確率は (x-1)/x
y本のダーツがある的にあたらない確率は

$$ \left(\frac{x-1}{x} \right)^y = \left(1-\frac{1}{x} \right)^{x \left( \frac{y}{x} \right)} $$

1.3.5 の近似より、εが小さい時
$$ (1-ε)^{1/ε} = 1/e $$
とかけるので

$$ e^{-y/x} $$

になる。

example 4.3はわかりやすい例

実際の問題だと、
集合S は要素を m 個持っていて、bit-arrayはn-bit、k個のハッシュ関数を仮定する。
的の数はx = n, ダーツの数は y=kmとなり
0のままのbitの数は
$$ e^{-km/n} $$

全部1が立つfalse positiveなケースは
$$ 1-e^{-km/n} $$
ハッシュの数を増やすと
$$ \left( 1-e^{-km/n} \right)^{k} $$

省略