Cloud Pak for Data as a Serviceハンズオンメニュー一覧
新型コロナウイルスの新規陽性者数のデータソース
このページにてグラフ化したいデータソースは、厚生労働省のオープンデータに掲載されているこちらのデータソースです。
前提事項
- 同じIDですべての操作を行いますが、
- 前半はデータ整備人の立場での操作です。
- 後半はデータ利用者としての操作です。
- 今回は2021年10月4日時点のデータを使用しています。
1.データカタログ画面上での操作
1.1.データソースをデータカタログに追加(データ整備人として)
- 名前や説明を入力して、URL欄に先程のCSVのURLを入力。
- 念の為、接続されているかを確認するために、「接続のテスト」をクリック。
1.2.データ接続情報をプロジェクトに追加する。(データ利用者として)
2.プロジェクト画面上での操作(データ利用者として)
2.1.プロジェクトへのデータ資産の追加
- 「接続データ」を選択し、対象となる接続情報(今回はCOVID新規陽性者推移)をクリック。
- その先の対象データ(今回はnewly_confirmed_cases_daily.csv)にチェックを入れ、
- 画面右下の「インポート」ボタンが青くなったらクリックします。
2.2.データ整形ジョブで、データの型を変更する。
2.2.1. データの型を変更するオペレーション
- 過去の先人の経験から、このデータのDate列が実は文字列型なので正しく時系列にならないことがわかっているので、データの変換処理を行います。
- 画面右上の青い「Preapare Data」ボタンをクリックします。
- データ整形(Data Refinery)処理が起動するまで数十秒お待ち下さい。起動し終わったら、画面左側の「1.列タイプの変換」ボタンの端にある「・・・」をクリックして表示された「編集」をクリックします。
2.2.2. データフロー設定を変更(今回は確認)するオペレーション
2.2.2.1. 一般 タブ
2.2.2.2. ソース・データ・セット タブ
サンプルの編集
フォーマットの編集
- ファイル・フォーマットがcsv、エンコードがUTF-8であることを確認します。
- また、無効データの処理、の箇所を「失敗」から「行」に変更します。
- この場合、無効なデータがあった場合、ジョブが失敗することなく、該当データを含む行が除去されます。
- 今回は「保存」をクリックします。
データ・ソースの置換
2.2.2.3. ターゲット・データ・セット タブ
- 処理した後のデータの設定です。デフォルトでは、ICOS(IBM CLoud Object Storage)上にcsvファイルとして保存されます。
- 設定を変えたい場合は、「ターゲットの選択」をクリックします。
2.2.ダッシュボード作成
2.2.1.全体データのみ表示
- 名前と説明を入力します。
- 「構成の定義」において、IBMloud上で現状稼働しているCognos Dashboard Embedded を選択します。(未設定の場合は新規サービスを構成してください。)
- 「作成」をクリックします。
2.2.2.都道府県別データの表示
追加で、「Osaka」と「Okinawa」を、Y軸の「Tokyo」の下あたりにドラッグ&ドロップします。