0
0

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?

はじめに

こんにちは。すぎもんです。:smiley:

皆さんはビジネス判断に必要なデータや、生成AIが出してきた情報の精度に懸念を抱いたことはありませんか。
HULFT DataCatalog には、データの品質が保たれているかをチェックするための機能(データテスト)が備わっています。

今回はその「データテスト」を使用してみた際の記事になります。

image.png

HULFT DataCatalogとは
社内に散在するさまざまなデータをカタログ化し、データの検索・理解・活用をサポートする製品。

HULFT DataCatalog について紹介している公式サイトと記事もあわせてご覧ください。

今回やること

HULFT DataCatalog の接続先に PostgreSQL を登録し、そのテーブルでデータテストを行います。

image.png

それでは早速やってみましょう!

実施手順

以下の流れで HULFT DataCatalog でデータテスト を行っていきます。

① 接続先の追加

  1. HULFT DataCatalog にログイン
  2. 接続先に PostgreSQL を追加

② データテストの実施

  1. テストの作成
  2. テストの実行

① 接続先の追加

接続先の追加 は、下記の手順で行っていきます。

  1. HULFT DataCatalog にログイン
  2. 接続先に PostgreSQL を追加

1. HULFT DataCatalog にログイン

Webブラウザ を開き、HULFT DataCatalog のURLへアクセスします。

image.png

POINT
ログインURL は以下になります。
http://<hostname>:<port_number>

ホーム画面が表示されているのが確認できます。

image.png

2. 接続先に PostgreSQL を追加

ヘッダーメニューから [接続先] を押下します。

image.png

[追加] を押下します。

image.png

必要な項目を入力して、[登録] を押下します。

image.png

詳細な接続先の設定項目については マニュアル をご確認ください。

対象の接続先にチェックマークを付けて [クロール] を押下し、ステータスが Success になっているのが確認できます。

image.png

これで接続先の登録は完了です。

② データテストの実施

データテストの実施 は、下記の手順で行っていきます。

  1. テストの作成
  2. テストの実行

1. テストの作成

アセット(データベースやそのテーブルなど)の詳細画面から [データ品質] を開き、データテストの作成を行っていきます。

image.png

利用金額」が 12000 未満のデータが無い場合に成功するテストを作成します。
テスト内容は以下のように設定します。

項目 内容 説明
カラム名 利用金額 データテストを実行するカラムを選択します。
データテスト名 hasMin(num) データテスト種別 を選択します。
最小値 12000 最小値未満のデータが無い場合に成功、そうでない場合は失敗となります。

image.png

POINT
データテスト種別 には、以下があります。

データテスト種別 説明 備考
isComplete() Nullの値が無い場合に成功、そうでない場合は失敗となります。
isUnique() 重複している値が無い場合に成功、そうでない場合は失敗となります。
hasMin(num) 指定した数値(最小値)未満のデータが無い場合に成功、そうでない場合は失敗となります。 最小値の指定は必須となります。
hasMax(num) 指定した数値(最大値)よりも大きいデータが無い場合に成功、そうでない場合は失敗となります。 最大値の指定は必須となります。
hasPattern(string) すべてのデータが指定した正規表現に合致した場合に成功、そうでない場合は失敗となります。文字列型の項目にのみ対応しています。 正規表現の指定は必須となります。

これでテストの作成は完了です。

image.png

2. テストの実行

[データテスト実行] を押下します。

image.png

[テスト結果] から、 失敗 したことが分かります。

image.png

[プレビュー] 画面から、利用金額が「12000」未満のデータが含まれているのが確認できました。

image.png

Appendix

値を変更して、テストの再実行をしてみます。

データテストを編集し、今度は [最小値] を「10000」に変更します。

image.png

テストを再実行すると [テスト結果] から、 成功 したことが分かります。

image.png

これでデータテストは完了です。

最後に

今回は HULFT DataCatalog でデータテスト を行ってみましたが、いかがでしたでしょうか。

HULFT DataCatalog のこの機能を使ってデータの品質をチェックすることで、データ汚染に気づくことが可能になるため、皆さんも是非試してみてください!
また、生成AIに渡せるデータと渡せないデータを選別することで、ハルシネーションの抑制に活用できるかもしれません。

このブログでは、今後も様々なTopics記事や接続検証等、皆さんの参考になるような記事を投稿していきたいと思います!
ここまで読んでいただきありがとうございました。それでは、また!:wave:

0
0
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
0
0

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?