データアセットの探索、カタログ化する(第3回)
記事の内容
WKCの主要な機能を記載いたします。
• データユーザの作成(第1回)
• カタログ・プロジェクトを作成する(第2回)
• データアセットの探索、カタログ化する(第3回)(当記事)
• データアセットの理解とソーシャル化(第4回)
• データのショッピング(必要なデータの選択)(第5回)
• アナリティックスやAIで必要なデータの準備(第6回)
• 機微(センシティブ)なデータの保護(第7回)
本記事は、上記のデータユーザの作成(第2回) の続きです。
データを管理するためのカタログやプロジェクトの作成を行います。
##公式ドキュメント
IBM Cloud Pak for Dataの公式ドキュメントはこちらをご参照ください。
本編
データ資産のディスカバーとカタログ化
本記事では、今から作成するDb2接続とローカル・ファイルからデータアセットのディスカバーとカタログ化を行います。
これにより、データ資産をディスカバーおよびカタログ化するために、ローカルファイル/接続されたアセット/接続の3つの方法をご紹介します。これらの方法を使用することで、カタログにデータアセットを追加することができます。その後、ユーザーが簡単にデータアセットを見つけられ、その内容を理解できるように、CP4Dを通じてモデルやダッシュボード、notebooksなどで利用するデータを準備できるように、タグ付けします。
非構造化データのカタログ
- 左上の IBM Cloud Pak for Data のナビゲーションメニューをクリックします。
- 「編成」 > 「すべてのカタログ」 を選択します。
- 「自動車保険」をクリックします。
- 「カタログに追加」をクリックし、「ローカル・ファイル」を選択します。
- 「ここにファイルをドラッグ・アンド・ドロップしてアップロード」に、以下のファイル(読者の方は適当なファイルをお願いします)をドラッグします。
• Vehicle Insurance Doc United States.pdf
• 2017 J.D. Power U.S. Auto Claims Satisfaction Survey.pdf
- 「名前および形式の編集」をクリックします。
これにより、データ資産の名前を変更し、ファイル・フォーマットを変更することができます。デフォルトのファイル・フォーマット拡張子に基づいて推測され、ハンズオンでは、PDFファイルであるため、PDFが自動的に選択されました。このフォーマットは変更しませんが、ファイル拡張子を削除して名前を変更することにします。
- 資産名に、「2017 J.D. Power U.S. 自動車保険請求満足度サーベイ」と入力し、pdfの拡張子は削除します。
- 資産名に、「自動車保険ドキュメントUS版」と入力し、pdfの拡張子は削除します。
- 適用をクリックしファイル名変更を保存します。
- 説明に、 「自動車保険のドキュメント」と入力します。
- タグに、「自動車保険」と入力します。
- +をクリックし、タグを追加します。
- タグに「ドキュメント」を入力します。
- +をクリックします。
スクリーン・ショットには、自動車保険およびドキュメントのタグが追加されています。これらのドキュメントをカタログに追加する前に、二つのタグが追加されていることを確認してください。 - 「追加ボタン」を押して、二つのファイルをカタログに追加します。
- 「最新の追加」のタブをクリックします。
- すべてのタグをクリックします。
完了すると、データ資産は、「最新の追加」セクションに自動的に追加されます。スクロールダウンすると、カタログ内に新たに追加された2つの文書が表示され、指定したタグが表示されます。「自動車保険」タグおよび「ドキュメント」タグがフィルター領域に追加されていることにも注意してください。
データ資産の自動ディスカバー
データ資産のディスカバリーを行います。
まず、データディスカバリーにより、データ資産の品質を確認したのちに、カタログに追加します。
- 「ガバナンス」 > 「データ・ディスカバリー」を選択します。
- 新規ディスカバリー・ジョブの「クイック・スキャン」を選択します。
- 「接続の検索または追加」を選択します。
- 「新規接続」を選択します。
- 「Db2」を選択します。
- 「選択」を選択します。
- 名前に、「自動車保険DB」と入力します。
- 説明に、「WKCのハンズオンラボのDB」と入力します。
- データベースに、「XXXX」と入力します。
- ホスト名またはIPアドレスに、「XXXXX」を入力します。
- ポートに、「XXXXX」を入力します。
- ユーザー名に、「XXXX」を入力します。
- パスワードに、「XXXX」を入力します。
- 「作成」をクリックします
- 今回扱うデータは、「BLUDB」 > 「AUTO_INSURANCE」内にあるため、ディスカバリー・ルートを選択し、「AUTO_INSURANCE」にチェックマークをつけます。
- 「選択」を押します。
- 実行するプロジェクトを選択します。「データ品質プロジェクト」 > 「自動車ディスカバープロジェクト」を選択します。
- 「ディスカバー」を押します。
- 状況が「分析中」→「レビュー待ち」になるのを待ちます。
- ジョブIDを選択します。
- 資産タイプやテーブルごと、スキーマごとに、ディスカバーされたデータを見ることが出来ます。
- ディスカバーされた列に対して、割り当てられている「データ・クラス」、「ビジネス用語」をもとに、提案されます。必要に応じて、アクションを押しますが、今回は行いません。
データディスカバリーにより、品質やデータ・クラス、ビジネス用語がカタログに必要であると確認できたので、自動車保険に追加していきます。
カタログへデータ資産の追加
カタログにデータ資産を追加するために、まずデータベースと接続します。その後、接続された資産を読み込みます。
- 右上のカタログメニューから、「カタログに追加」 > 「接続」をクリックしてください。
選択できるコネクターのリストには、IBMサービスおよび多数のサード・パーティ−・サービスも含まれていることに注意してください。 - 「Db2」を選択します。
- 名前に、「自動車保険DB」と入力します。
- 説明に、「WKCのハンズオンラボのDB」と入力します。
- データベースに、「XXXX」と入力します。
- ホスト名またはIPアドレスに、「XXXXX」を入力します。
- ポートに、「XXXX」を入力します。
- ユーザー名に、「XXXX」を入力します。
- パスワードに、「XXXX」を入力します。
- 「作成」をクリックします。
緑色のチェック・マークが表示され、接続テストに合格しましたというメッセージが表示されたら、作成をクリックします。テストに合格しない場合は、上記のステップ3から10に記載されているとおりに、すべてのパラメーターが正しく入力されていることを確認してください。
- 「最新の追加セクション」をクリックします。
追加されたすべてのデータ資産がこのセクションに表示されていることに注意してください。最新の追加セクションでは、最新のデータ資産が最初に表示されます。 - 「任意のタイプ」をクリックしてください。
フィルターに接続という新しい資産タイプが追加されていることに注意してください。 - 「自動車保険DB」をクリックしてください。
- タグにカーソルをあてると、鉛筆アイコンが表示されるので、クリックしてタグを追加します
- 「自動車保険」と「データウェアハウス」をタグ付けします。
- 「適用」を押します。
ここまでで、データベースの接続をすることができました。
続いて、接続されたデータベース内にある資産をカタログに追加します。
構造化データのカタログ化
Db2接続から接続された資産を利用して、 「Claims」,「Customers」と「Policies」をカタログに追加します。これらは、自動車保険請求分析処理のために必要となります。
- 「カタログに追加」 > 「接続された資産」 を選択します。
- 名前に「自動車保険請求」と入力します。
- 説明に、「全米の自動車保険請求」と入力します。
- タグに、「自動車保険」を追加します。
- 「ソースの選択」を押します。
- 「自動車保険DB」を選択します。
- 「AUTO_INSURANCE」を選択します。
- 「CLAIMS」を選択します。
- 「選択」をクリックします。
- 「追加」を押します。
データ資産のリストには、指定したタグが付いたテーブルが表示されます。
同様に、「CUSTOMERS」と「POLICIES」も追加します。
- 最新の追加タブをクリックします。
「最新の追加」セクションで、追加されたテーブルと接続資産がタグと共にカタログ化されています。
次のハンズオン
次は、データアセットの理解とソーシャル化(第4回)です。