こんにちは。
Supershipでデータ活用基盤の開発や運用をしているいなみと申します。
この記事は Supershipグループ Advent Calendar 2025 の16日目の記事です。
はじめに
弊社のデータ活用基盤は、先代から数えるともう運用を始めて7年以上経っています。最初は有識者が納期重視で作った基盤だったのですが、今ではその基盤もAWSからSnowflakeに移行し、運用面の改善やコスト削減も行い、それなりに洗練された基盤になったと実感しています。
ですが、まだまだ改善の余地があると考えている要素もあり、その一つがデータ品質です。
昨年、この基盤の運用チームの中で基盤改善の方針検討のために行った、DMBOKの各要素に対する現行基盤の評価の結果、データ品質の項目が軒並み低得点を叩き出しました。
この対策として、データ品質向上をテーマに掲げて取り組みを進めていたのですが、正直なところ、目に見えての品質向上も、品質向上の実感も得られていないというのが現状です。
これは組織の課題というより個人的なモヤモヤではあるのですが、結局「データ品質」ってなんなんだろう?というのがうまく言葉になっていません。この状態では、データ品質の向上を目指す土俵に立てていないですね。
この記事では、このモヤモヤの解消を目指して、データ活用基盤としてのデータ品質について実例を交えながら言語化していこうと思います。
「データ品質が良い」とはどういう状態か
データ品質が良いということは、具体的にはどんな状態なのかを言語化していきたいと思います。
まずは、一般論として世の中に転がっているガイドラインから、しっくり来るような言語化がされているかを探してみます。
データ品質管理ガイドブック
政府が公開しているデータ品質管理ガイドブックです。
データ品質管理のためのフレームワークや評価モデルについて記した資料ですが、この手の資料ってなかなか読んでいても頭に入ってこないですよね。
ということでGeminiに要約させてみましょう。
1. データ品質とはなにか(定義)
このガイドブックでは、データ品質を一言で定義するのではなく、「利用目的に応じた適切さ」と「構成する3つの視点」で定義しています。
- 利用目的に依存する性質: データ品質は単に「高ければ良い」ものではなく、利用目的に応じて適切である必要があります。提供者が高品質だと思っていても、利用者にとって不十分であれば品質が良いとは言えません
- 3つの構成視点: 国際標準(ISO/IEC 25000シリーズ等)をベースに、以下の3つの側面から品質を捉えています
- データそのものの品質: 正確性、完全性、最新性など、データ自体が持つ特性(ISO/IEC 25012)
- サービス品質: データの設計、収集、統合、提供といったデータライフサイクル全体のプロセスの品質(ISO/IEC 25024)
- データ管理プロセスの品質: データの品質を維持・管理するための組織的な取り組み(計画、管理、改善など)の品質(ISO/TS 8000-61)
2. データ品質を改善するためのガイドのアウトライン
データ品質を継続的に改善するためのフレームワークとして、以下の流れが提示されています。
(省略)
このように、本ガイドブックは「現状を3つの視点で評価・診断」し、「成熟度レベルを上げる」ことを目指して具体的な「標準化・ツール活用」を行う、という構成になっています。
要するに「データ品質は利用目的による」とのことでした。
そりゃあそうなんだが、結局そこを曖昧にしたままハウツーのことを読んで試しても、それが本当に成果になっているのかは確信が得られないまま進んでいくことになります。
確信が得られないまま進んでいった結果、こんな記事を書くことになってしまったので、この定義でよしとはできなさそうです。
ちなみに、昨年行ったデータ品質の評価も、このガイドラインに出てきたISO25012やISO25024、ISO8000-61で定義された項目を用いていました。こういった標準化された規格も、正しい目的がないと有用にならないということを実感させられますね。
DMBOKでの定義
では、データマネジメントのバイブル、DMBOKではどのように定義されているのでしょうか?
DMBOK2、データ品質の章のイントロダクションから、まずは以下の文章がその解になりそうです。
データが価値を持つ前提条件は、データそのものが確かで信頼ができるということである。言い換えれば高品質なデータである。
なるほど、もう少し具体的な定義を見つけたいところ。
続いて、同じくイントロダクションから、「本質的な概念>データ品質」というドンピシャな項目があったので、そこを引用。
データ品質の度合いはデータ利用者の期待と要求を満たす度合いである。つまりデータが果たすべき目的に合致しているかどうかである。目的に合致していない場合は低品質である。従ってデータ品質は目的とデータ利用者の要求によって決まる。
データ品質管理における課題の一つは、品質に関する期待が常に分かっているとは限らないことである。データ利用者はそれを明確にしないかもしれない。しばしばデータを管理する人々はこれらの要件について問いかけすらしない。しかしデータを信頼できるものにするためには、データマネジメント・プロフェッショナルがデータ利用者に品質要件とその測定方法をよくよく理解する必要がある。これについてはビジネスニーズと外部の圧力が高まり要件が変化する中で、継続的な議論が必要となる。
いわば、「データ利用者の要件を満たせているデータが、高品質なデータ」ということ。
「データ品質は利用目的による」と変わらない気がしないでもないですが、「品質に関する期待を明らかにしろ」という明確な方針が出たので、ここを深堀っていくのがよさそうです。
データ品質の切り口
データ品質に対する期待を具体化するために、その要素を細分化してそれぞれの切り口ごとに考えていきたいと思います。DMBOKにおいては「評価軸」という言葉で表現されていますが、それぞれの軸においてどのような観点があるのか、そしてそれぞれの軸同士は、シチュエーションごとに何が最重要視されるのかを考えることで、データ品質の改善についての具体的な打ち手に繋がりそうです。
DMBOKには多種類の評価軸が載っていますが、シンプルかつ網羅的な軸として、2013年にDAMA UKが発行したホワイトペーパーによる6つの核となる評価軸を引用します。(各軸の説明はGeminiによって要約しています)
- 完全性:必要なデータが揃っており、欠損がないか?
- 一意性:重複していないか?
- 適時性:必要なタイミングで利用可能か?鮮度は十分か?
- 有効性:定められた形式やドメイン(値の範囲)に従っているか?
- 正確性:実世界の状態を正しく反映しているか?
- 一貫性:異なるシステム間やデータセット間で矛盾がないか?
例えばマスタデータの管理システムであれば、一意性が少しでも欠損していればすぐさま低品質という烙印を押されるでしょう。金融系のシステムであれば完全性や正確性への要求度は当然高くなると思います。
では、弊社のようなWeb広告のデータ活用基盤では、どの評価軸を重要視するとよいのか?を考えることにしました。
利用者の声が教えてくれる一番大事な軸
適時性:データの鮮度
重要視すべき評価軸を考える中でまず最初に思い出したのは、データ活用基盤の利用者に対し昨年おこなったインタビューでした。このインタビューは、データ活用基盤の継続的な改善のために、利用者の生の声を聞こうということをモチベーションとして行ったものです。
いただいたお声の中に「2日遅れのデータしか見られない」「生成されてすぐのデータを使いたい」など、データの鮮度に対する要望が多くありました。
デジタルマーケティングの領域では情報取得と活用のリアルタイム性への要求はどんどん強くなっていっています。その状況の中で、今のデータ活用基盤の「適時性」は低品質と評価されて然るべき状態です。
この部分が課題であることは、データ基盤の運用チームとしてもすでに把握はしていました。データの生成元から活用基盤までの間に複数の段階的なパイプラインが必要であり、それぞれがスケジュール実行されていることで、最終的にデータ活用基盤に到達するまでに時間がかかっているという状況です。
ですが、これまでこの課題をデータ品質の課題として捉えたことはなかったように思います。(少なくとも個人的には)
データ品質の定義に向き合うことで得られた、よいパラダイムシフトなのかなと捉えています。
大量性(?):データボリューム
弊社の広告プロダクトをご利用いただいているお客様、およびお客様と向き合っている営業の方々からのデータへの要求として最もよくいただくのは、「データボリューム」です。
広告を配信する最大の目標は、商品を購入してもらうことです。そして、より多くの方に商品を購入していただくためには、購入者の母集団、すなわちその商品を知っている人を増やすことが重要になります。
弊社のデータ活用基盤のデータは、この母集団の形成のために用いられることが多いです。なので、データ活用基盤のデータボリュームが、そのまま広告案件の母集団となります。
データ活用基盤の利用者の期待する要件が、データ活用基盤のデータ品質であるとするなら、データボリュームはデータ品質の評価軸の一つになるものと言えそうです。ですが、先に挙げた評価軸の中には該当しそうな項目がありませんでした。このデータボリュームというのは、弊社のデータ活用基盤、ないしデータウェアハウスとしての特有の評価軸なのかもしれません。
例えば購買データの統計を取って意思決定につなげるためのデータウェアハウスがあったとして、意思決定の質を上げるために、統計情報の信頼性の向上を命じられた場合、やはり母数となる購買データのボリュームには注文がつきそうです。
ただし、データボリュームといってもただレコード数が増えればいいわけではないという点には注意が必要そうです。評価軸で言うところの「完全性」「有効性」「正確性」などは担保された、有用なデータのボリュームが求められているはずです。
最近弊社であった例として、広告配信に利用できる、Web利用者を識別できるCookieのリスト抽出を依頼されたケースを例にとります。最初にリスト抽出をして作成できたものには、およそ1千万以上のCookieが含まれていました。が、そのリストを改めて検品してみると、発行されたてでまだ何も属性が紐づいていない=広告配信に利用できないCookieがほとんどで、実際に有効なCookieの数は80万程度だった、というケースです。
「(有用なデータの)ボリュームが欲しい」が利用者の期待値であることを忘れないように、この改善に取り組んでいきたいと思います。
完全性・有効性・正確性
例えば「年齢カラムにマイナスの数字が入っている」など、データの中身の期待値と外れた値が入ってくる=データ品質が低い、という話は、とてもイメージがしやすいと思います。私自身も正直、データ品質の改善をしろと言われて、このようなことを思い浮かべていました。
そして、これを深追いしていたことこそが
目に見えての品質向上も、品質向上の実感も得られていないというのが現状
の原因なのかなと考えています。なぜなら…
- そもそもデータ活用基盤ではデータを1から作成することはないので、そこまでデータの中身に干渉できる部分がない
- データを生成している上流システム(=弊社の広告プロダクト)は、十分に成熟しているので、あからさまに変なデータはそう入ってこない
という感じです。一言で表すと「アンコントローラブルだから改善のしようがない」となります。元も子もないですね。
では、自分たちでコントロールできることって何かあるのかな?と考えたときに思いついたことが一つあります。
それは、「完全性・有効性・正確性が欠けているデータを受け取らない」ということです。
データボリュームの項で述べた
「完全性」「有効性」「正確性」などは担保された、有用なデータのボリュームが求められているはずです。
に該当しないデータは、データ活用基盤としてはノイズにしかならないなら、最初から受け取らないようにするのが良さそうです。
例えば、広告配信に利用できないCookieを含んだ広告配信ログも、広告プロダクト側ではシステムの活動記録にとって重要なログとして扱われ、有用なCookieと一緒にデータ活用基盤へ送られてきます。
ですが、先程のケースのように、データ活用基盤の利用者としては配信に使えないCookieのデータは残念ながらノイズにしかなりません。それらが混在しているデータは、低品質と評価されることがあるでしょう。
これからどうするか
ここまで言語化してきたことをまとめると、
- 利用者のデータへの要求に対し
- 自分たちのコントロールできる範囲で
- 継続的に改善する
ことが、データ品質向上の活動の要点なのかなと腹落ちしました。
データ品質とは、高品質なデータとは?という問いに、自分なりの答えは出せましたが、あとはデータ品質の改善に向けての取り組みを進めていかなければ、この答えに価値が生まれません。
来たる2026年に向けての、自分なりのコミットメントとして、何をしていくのかを書き示して終わりにしようと思います。
まず、データの鮮度については重要な課題として取り組んでいきたいと思います。我々が管理しているデータ活用基盤の構造が生んでいる課題なので、大掛かりな改造があるかもしれないですが、一歩一歩進めていきたいです。
広告配信に利用できないデータを受け取らない、というのも自分たちで進めていけそうな部分なので、進めていきたいと思います。利用者のノイズにならないだけでなく、データ活用基盤のコストの削減にも繋がる部分かなと思うので、進めていきたいところです。
一方、データのボリュームの絶対数というところでは、正直自分にとってはアンコントローラブルです。どうしてもデータ生成元の活動量に依存するところではあるので…
ですが、利用者がこれを求めているという事実は変わりません。だからこそ、自分の領域に閉じこもらず、一連のデータの流れに関わる部門とともに、さらには全社的な取り組みとして、こういったデータ品質の指標化と改善につながるような働きかけをすることができたらいいなと思っています。
おわりに
DMBOKのデータ品質の章の2.1に、高品質なデータの定義をするために用いるいくつかの質問があり、これを自問自答するなり、自組織に問いかけるなり活用できると良いなと思ったので、紹介して終わりにしようと思います。
- ステークホルダーにとって「高品質なデータ」とは何を意味するか
- 低品質のデータが業務遂行やビジネス戦略にどう影響を及ぼすか
- より高品質なデータはどのようにビジネス戦略に貢献できるか
- データ品質向上の必要性が求められる優先分野はなにか
- 低品質なデータに対する許容範囲はどの程度か
- データ品質向上を支えるためにどのようなガバナンスが実施されているか
- どのようなガバナンスの仕組みを追加する必要があるか
最後に宣伝です。
Supershipではプロダクト開発やサービス開発に関わる人を絶賛募集しております。
ご興味がある方は以下リンクよりご確認ください。
Supership 採用サイト
是非ともよろしくお願いします。