はじめに
こんにちは。すぎもんです。![]()
皆さんはビジネス判断に必要なデータや、生成AIが出してきた情報の精度に懸念を抱いたことはありませんか。
HULFT DataCatalog には、データの品質が保たれているかをチェックするための機能(データテスト)が備わっています。
今回はその「データテスト」を使用してみた際の記事になります。
HULFT DataCatalogとは
社内に散在するさまざまなデータをカタログ化し、データの検索・理解・活用をサポートする製品。
HULFT DataCatalog について紹介している公式サイトと記事もあわせてご覧ください。
今回やること
HULFT DataCatalog の接続先に PostgreSQL を登録し、そのテーブルでデータテストを行います。
それでは早速やってみましょう!
実施手順
以下の流れで HULFT DataCatalog でデータテスト を行っていきます。
① 接続先の追加
- HULFT DataCatalog にログイン
- 接続先に PostgreSQL を追加
② データテストの実施
- テストの作成
- テストの実行
① 接続先の追加
接続先の追加 は、下記の手順で行っていきます。
- HULFT DataCatalog にログイン
- 接続先に PostgreSQL を追加
1. HULFT DataCatalog にログイン
Webブラウザ を開き、HULFT DataCatalog のURLへアクセスします。
POINT
ログインURL は以下になります。
http://<hostname>:<port_number>
ホーム画面が表示されているのが確認できます。
2. 接続先に PostgreSQL を追加
ヘッダーメニューから [接続先] を押下します。
[追加] を押下します。
必要な項目を入力して、[登録] を押下します。
詳細な接続先の設定項目については マニュアル をご確認ください。
対象の接続先にチェックマークを付けて [クロール] を押下し、ステータスが Success になっているのが確認できます。
これで接続先の登録は完了です。
② データテストの実施
データテストの実施 は、下記の手順で行っていきます。
- テストの作成
- テストの実行
1. テストの作成
アセット(データベースやそのテーブルなど)の詳細画面から [データ品質] を開き、データテストの作成を行っていきます。
「利用金額」が 12000 未満のデータが無い場合に成功するテストを作成します。
テスト内容は以下のように設定します。
| 項目 | 内容 | 説明 |
|---|---|---|
| カラム名 | 利用金額 | データテストを実行するカラムを選択します。 |
| データテスト名 | hasMin(num) | データテスト種別 を選択します。 |
| 最小値 | 12000 | 最小値未満のデータが無い場合に成功、そうでない場合は失敗となります。 |
POINT
データテスト種別 には、以下があります。
| データテスト種別 | 説明 | 備考 |
|---|---|---|
| isComplete() | Nullの値が無い場合に成功、そうでない場合は失敗となります。 | |
| isUnique() | 重複している値が無い場合に成功、そうでない場合は失敗となります。 | |
| hasMin(num) | 指定した数値(最小値)未満のデータが無い場合に成功、そうでない場合は失敗となります。 | 最小値の指定は必須となります。 |
| hasMax(num) | 指定した数値(最大値)よりも大きいデータが無い場合に成功、そうでない場合は失敗となります。 | 最大値の指定は必須となります。 |
| hasPattern(string) | すべてのデータが指定した正規表現に合致した場合に成功、そうでない場合は失敗となります。文字列型の項目にのみ対応しています。 | 正規表現の指定は必須となります。 |
これでテストの作成は完了です。
2. テストの実行
[データテスト実行] を押下します。
[テスト結果] から、 失敗 したことが分かります。
[プレビュー] 画面から、利用金額が「12000」未満のデータが含まれているのが確認できました。
Appendix
値を変更して、テストの再実行をしてみます。
データテストを編集し、今度は [最小値] を「10000」に変更します。
テストを再実行すると [テスト結果] から、 成功 したことが分かります。
これでデータテストは完了です。
最後に
今回は HULFT DataCatalog でデータテスト を行ってみましたが、いかがでしたでしょうか。
HULFT DataCatalog のこの機能を使ってデータの品質をチェックすることで、データ汚染に気づくことが可能になるため、皆さんも是非試してみてください!
また、生成AIに渡せるデータと渡せないデータを選別することで、ハルシネーションの抑制に活用できるかもしれません。
このブログでは、今後も様々なTopics記事や接続検証等、皆さんの参考になるような記事を投稿していきたいと思います!
ここまで読んでいただきありがとうございました。それでは、また!![]()















