この記事は インフォマティカ Advent Calendar 2023 Day 18 の記事として書かれています。
データ品質の評価軸=データ品質の次元とは
Informaticaのデータ品質ソリューションではデータ品質チェックの評価軸を指定する事が出来、またそれを元にCloud Data Governance & catalog(CDGC)で視覚化して把握し易く出来ます。Informaticaではこれをデータ品質の次元(Dimensions of data quality)として表記しています。
現在用意されている評価軸は以下の6つです。
- 正確性(Accuracy)
- 有効性(Validity)
- 完了度(Completeness) ・・"完全性"とも言う
- 一貫性(Consistency)
- 一意性(Uniqueness)
- 適時性(Timeliness)
現在の6つの評価軸はデータマネジメントの教科書DMBOKの中で定義されているデータ品質の8つの評価軸のうちの6つとなっているようです。
尚、実際に作ったデータ品質ルール・ロジックがどのような評価を行っているか≒どの評価軸に関連するのか、については、そのルールを作った人・組織が自身で判断して指定することになります。
今日はこれらデータ品質の評価軸について改めて確認してみます。
正確性(Accuracy)
マニュアルより:
アセット・ロジックが主にデータ値の正確性を確認する場合に[正確性]を選択します。アセットが検証できる既知のデータファクトとデータが一致する場合、そのデータは正確であると言えます。
例:
- データが事実を正確に表しているか
有効性(Validity)
マニュアルより:
アセット・ロジックがデータの妥当性を確立することを主な目的としている場合は、[有効性]を選択します。データが、組織が定義するビジネスルールの形式的および構造的要件を満たしている場合、そのデータは有効であると言えます。
例:
- データ型が一致しているか
- 文字列長が適合しているか
完了度(Completeness)
マニュアルより:
アセット・ロジックが主にデータの完全性を確立することを目的としている場合は、[完了度]を選択します。例えば、組織のビジネスルールでは、1つ以上のデータカラムにNULLデータが含まれていないことが求められる場合があります。
例:
- 欠損値(null)が無いか
一貫性(Consistency)
マニュアルより:
アセット・ロジックが主に1つ以上のカラム内のデータの一貫性の確立に関係している場合は、[一貫性]を選択します。カラムの値が統一された文字形式に準拠している場合、カラム内のこのデータは一貫していると言えます。
例:
- データ内容・表記が統一できているか
一意性(Uniqueness)
マニュアルより:
アセットロジックが、主に重複したレコードがデータセットに含まれていないことに関係している場合は、[一意性]を選択します。2つ以上のレコードが実質的に同じデータを持つ同じデータエンティティを参照している場合、それらのレコードは互いに重複していると言えます。
例:
- データが重複していないか
適時性(Timeliness)
マニュアルより:
アセットの主な目的が、レコードデータが最新であることを確認することである場合は、[適時性]を選択します。現在のデータは、データファクトの最新のバージョンを表します。
例:
- 最新のデータになっているか
まとめ
データ品質のルールは様々な考え方がありますが、上述の評価軸を参考にして設定しておくとデータ品質の状況把握がし易くなると思います。ぜひご活用下さい。