3. 分析編
Cloud Pak for Data as a Serviceハンズオンメニュー一覧
本記事では、上記の1.構築編、および2.設定編によって準備された環境を用いて、データユーザがどのようにデータを検索し分析環境へ持っていくか、という導線を体験いただくように記載しています。
公式ドキュメント
- IBM Cloud Pak for Data as a Service の公式ドキュメントはこちらをご参照下さい。
1.データ検索
2.ビジネス用語の確認
顧客、という検索の結果、複数の結果が出ました。
まずはビジネス用語として出てきた「オンライン顧客」という用語を確認します。
オンライン顧客、というビジネス用語を確認します。
ここで、関連コンテンツ、という箇所を見てみましょう。
2.1.関連コンテンツ(データ)の確認
3.関連するカタログ上のデータ(オンライン顧客データ)の確認。
- ビジネス用語に紐付けられたカタログ上のデータが表示されます。
3.1.概要 タブ
3.2.資産 タブ
3.3.アクセス タブ
3.4.レビュー タブ
3.5.プロファイル タブ
3.6.アクティビティー タブ
カタログに追加されてからの、いわゆるデータのリネージュ(来歴)を確認できますが、ライトプランでは使用できません。
4.プロジェクトへの追加
4.1.プロジェクトに、カタログからデータ資産を追加。
-
カタログで見つかったデータを、分析用のプロジェクトに格納します。
-
なお、データが保護ルールでブロックされている場合、管理者以外はそのデータをプロジェクトに格納できません。
-
「ターゲット」箇所で自分のプロジェクトを指定して、画面右下の「追加」ボタンをクリック。
4.2.プロジェクトに、コラボレータを追加。
-
以下は、プロジェクトに招待されたユーザの画面
5.データの整形(Data Refinery)
- プロジェクト内に保存されたデータを、使いやすいように整形・精製(Refine)、また可視化も出来るジョブを作成・実行します。
- 公式ドキュメントとしては、こちらを参考にしてください。
5.1.Data Refinery の起動
-
画面の左側は、修正対象のデータと、それに修正を加えていく処理のステップが記載される場所です。
- (「✗」ボタンで消せますし、画面に再度出す場合は画面右上の「i」のアイコンをクリックすると現れます)
-
画面真ん中は対象データのプレビュー、プロファイル、視覚化(グラフ)が確認できます。
-
画面の右側は、対象のデータソース等の情報が記載されます。
- (「✗」ボタンで消せますし、画面に再度出す場合は画面左上の「Steps」という箇所をクリックすると現れます)
5.1.1.データプロファイル
5.1.2.データ視覚化
-
その横の「視覚化」タブをクリックします。
-
画面右上の「アクション」の箇所から、グラフをプロジェクト(visualization asset browser)に保存したり、グラフの詳細(JSON形式)や画像(PNG形式)をダウンロードすることも可能です。
5.1.3.データ整形の操作
-
フィルターしたい列を選択肢、その条件を選びます。
-
この例では、「出身者」列に「兵庫県」が含まれている列を選択します。
5.1.3.1.データ出力先を、プロジェクト内のcsvファイル(デフォルト設定)にする場合(今回実施します。)
- 今回のハンズオンではこちらの例で進みます。
- 5.1.3.3.の箇所まで読み飛ばしてください。
5.1.3.2.データ出力先を、他のデータベース等に設定する場合(今回は実施しません。)
-
今回のハンズオンでは以下の操作は行いません。参考として、様々なDBへ出力も出来るのだな、という点を抑えていただければ結構です。
-
画面右側の「編集」ボタンをクリック。
-
「出力の編集」をクリック。
-
「ロケーション」箇所の右側のペンのマークをクリック。
-
出力したいデータベースのテーブルを選択して、「ロケーションの保存」をクリック。
-
データセット名や説明を確認し、出力先への出力方法を選択。
-
「出力の編集」の横のチェックマークをクリック。
-
画面右下の「完了」をクリック。
5.1.3.3.データ保存以降の処理
-
(デフォルト設定のcsv出力の場合で記載しています。)
-
このジョブ設定を保存して、結果を作成してみます。
-
データの入力・出力を確認し、「次へ」をクリックします。
-
データ資産一覧に戻りました。
-
先程作成したRefineryフローと、そのフローにより作成された新規データファイル(csv)が保存されていることがわかります。(一部日本語名称が文字化けしていますが。。。)
5.1.4.ファイルの修正
-ファイル名を修正して「適用」をクリックします。
その他、分析用のハンズオン
-
こちらのリンク先に記載されている、「データ利用者向け」の以下手順も参考になさってください。
-
IBM Cloud Pak for Data as a Service ハンズオン資料 3.分析編-A:ダッシュボードで新型コロナの新規陽性者変遷を見る
-
[IBM Cloud Pak for Data as a Serviceを始めてみる(7.ダッシュボードの作成)]
(https://qiita.com/Asuka_Saito/items/79a3b9cd7f65b45d04a3) -
IBM Cloud Pak for Data as a Serviceを始めてみる(14.GoSalesのデータを使う)
-
IBM Cloud Pak for Data as a Serviceを始めてみる(15.コールセンターのデータセットを使う)
-
IBM Cloud Pak for Data as a Serviceを始めてみる(16.Modelerフローのサンプルを使ってみる - 薬剤研究例 )
-
IBM Cloud Pak for Data as a Serviceを始めてみる(19.Modelerフローで不良品件数予測モデルを開発する )
-
WiDS Tokyo@IBM 2021開催記念?: AutoAIの時系列予測で今後30日の東京の新型コロナ感染数予測をしてみる
次のハンズオン
- 4.利用(ETL)編は、こちらです。