##データクラスとは
データクラスとは、データフィールドやテーブルの列など、データ資産に含まれるデータの種類を記述するものです。データクラスは、データベースの列のタイプと混同されがちなのですが、データベースの列のタイプは、vachar型やint型など、文字列や数値型を表すものに対して、データクラスはその列に、口座番号や誕生日など、どのような種類のデータが入っているのかを表現するものです。
データクラスは、カタログに登録したい、もしくは登録されているデータ資産の品質を確認するために利用します。例えば、本来であればこのテーブルのこの列には、クレジットカード番号が入っていなければならないのに、違うコード体系の番号が入っているとそのデータは信用できませんよね?そういうデータの中身をチェックするのに、データクラスは用いられます。
データカタログの製品によっては、デフォルトで予め設定されているものもあります。例えば、Cloud Pak for Data(CP4D)のWatson Knowledge Catalog(WKC)では、約150のデータクラスが事前に定義されています。いくつか例をご紹介します。
Email Address
Eメールアドレスを定義したデータクラDate of Birth
誕生日を定義したデータクラスInternet Protocol Address
IPアドレスを定義したデータクラス製品コードがきちんと入力されているかチェックしたいなど、事前に定義されているデータクラスだけでは対応できない場合があると思います。その場合は、管理したいコード体系などを表現するデータクラスを作成することができます。
##新しいデータクラスの作成方法
ここでは、IBM Cloud Pak for Data(CP4D)のWatson Knowledge Catalog(WKC)を例に、新しいデータクラスの作成方法をご紹介します。
CP4Dにログインした直後の画面です。
左上にあるメニューボタンを押して、ガバナンス -> データクラスを選択します。
右上にある新規データ・クラス -> 新規データ・クラスの作成を押します。なお、今回はご紹介しませんが、データクラス定義のファイルインポートも対応しています。
データクラス名とそのデータクラスが属するカテゴリーを選択します。また、そのデータクラスの定義を記入し、ドラフトとして保存を選択します。
データクラスがドラフトとして保存されました。CP4DのWKCは、データクラスは公開済とドラフトの状態で管理されます。ドラフトの状態場合、ユーザーには見えない状態となっています。
データクラスの例も追加することができます。例のエリアにある+ボタンを押します。
サンプルを記入し、追加ボタンを押します。
例が追加されました。
データクラスは、1次カテゴリーとしてメインのカテゴリーの他に、複数のカテゴリーに2次カテゴリーとして保存することができます。
また、これ以外にも、親データクラスや従属データクラスを設定することができます。ここではブランクのままにします。
さらに、突き合わせ方式があります。これは、データ資産の品質チェックをするときに利用するものですが、ここでは、修正することなく、自動突き合わせなしのままにしておきます。
自動突き合わせ方式の設定は、データクラス 応用編でご説明したいと思います。
必要な情報を設定したら、右上にある公開ボタンを押します。
コメントを残して、公開するボタンを押すと、データクラスがドラフト状態から公開済みとなります。
デフォルトの設定では、公開ボタンを押すと、そのまま公開済みになりますが、CP4DのWKCのワークフロー機能を利用すれば、適切な承認プロセスを経て、データクラスを公開するようなフローを作成することもできます。
以上で、データクラスを作成いたしました。