データ重複排除の手法について

Last updated at 2025-08-12Posted at 2025-08-12

前回に続いて、データの重複排除について触れていく。

データの種類別に重複排除がどのように機能していくかの話に続き、今回は重複排除の手法について見ていきたい。

重複排除はどこで発動するのか

データ重複排除の機能は当初、データバックアップのために開発されたものだと言われていた。
バックアップデータ年月が経てば経つほどにデータ容量が増えていき、少しでも管理するデータ容量を軽くするための機能である。

ただ現在はバックアップ用途だけでなく、本番データにも重複排除の処理が行わえるようになっている。
そのため本番用ネットワーク内のサーバ内蔵ドライブ、専用ストレージ機器に、バックアップ用の別ネットワーク内のストレージ機器、どこでもデータの重複排除ができる。

重複排除は各機器のOSで処理することもあれば、専用ソフトウェアを入れて処理させることもできる。
ちなみに。例えば本番用ストレージとバックアップ用ストレージそれぞれでOSに重複排除処理ができるとする、しかし両者のストレージシステムが異なった場合は、本番用に軽くされたデータ容量はいったん実容量に戻り、バックアップ用ストレージへ送られた際にそこで改めて重複排除が発動される。
同じストレージシステム間でのデータ転送の場合は重複排除がかかったままの軽くなったデータがそのまま送られることとなる。

重複排除されるタイミングは

基本的に重複排除機能が搭載されたOSやソフトウェアを入れられれば、どの機器でも重複排除は使える。

ではどのタイミングでデータの重複排除が発動されるのか。

これはインライン処理とポストプロセス処理という2つのパターンが存在する。

・インライン
データが機器内のドライブに書き込まれる前に重複部分の検出を行なう手法。
ドライブへの無駄な書き込みが減るため負荷が軽減されて容量の無駄も省けるので大きなメリットがあるが、その反面、重複部分の検出が行なわれた後でのドライブへデータ格納がされるのでパフォーマンスはやや劣るとされる

・ポストプロセス
データが機器内のドライブへ書き込まれた後に重複部分の検出を行なう手法。
データがそのまま格納されるのでパフォーマンスは高くなるメリットがある一方で、いったん無駄な重複データも格納されるためあらかじめ多くの容量のドライブ構成を用意する必要がある。
実データ容量が10TBで重複排除後は7TBまで軽減できるが、ドライブ容量は10TBが必要になる。

効率性を優先するならインライン、パフォーマンスを優先するならポストプロセス、という棲み分けで考えたらわかりやすく解釈できるだろう。

ひとりごと

お盆の時期になると先の大戦に関連した特集が多くのメディアで組まれる。
今年2025年は戦後80年の節目の年で、どの媒体でも力のこもった特集となっている。

自分はNHKの「バタフライエフェクト～映像の世紀～」という番組が好きで毎週楽しみに視聴しているのだが、やはり今春からこの夏にかけて第二次世界大戦前後に焦点を当てた内容で固められている。

自分の祖父母世代はみな幼い子どもとして戦争を体験している。だからよくその話は聞かせてもらってたが、だんだん戦争を知る世代が少なくなっているので、こういった特集がたくさんリリースされるのは良い試みだと思った。

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up