Part 3の内容
「さわってみよう watsonx.data #1 ~初めの一歩編~ Part 3」となる当記事では、
下記のうち
・watsonx.dataへのログイン
・インフラストラクチャー・マネージャー(3階層コンポーネントを知る)
・データ・マネージャー(データの探索)
・照会ワークスペース(データの照会)
・照会履歴(照会の監査(過去に実行されたSQLの表示))
・スキーマの作成
・データの取り込み(都内WiFiスポットの緯度、経度が記録されたCSVファイル)
・データの照会(地理空間関数で東京駅に近い都内WiFiスポットの件数を調べる)
・アクセス制御(インフラとデータに対するユーザー単位での制御)
太字部分の
・スキーマの作成
・データの取り込み(都内WiFiスポットの緯度、経度が記録されたCSVファイル)
・データの照会(地理空間関数で東京駅に近い都内WiFiスポットの件数を調べる)
を取り上げます。
スキーマの作成
ここからはスキーマを作り、その後、ローカルPCにあるCSVファイルを読み込み、表を作成します。その後、そのデータを照会してみます。
スキーマの作成はデータ・マネージャーで行います。
”SQL”アイコンのすぐ上のアイコンをクリックするとデータ・マネージャーが表示されます。
データ・マネージャーの画面で青文字の”作成”をクリックし、”図形の作成”を選択します(ここでは図式=スキーマの意味です)。
カタログが“iceberg_data”になっていることを確認し、スキーマ名を入力します。
英数字であること、任意のもので構いません(この例ではuser01)。
”作成”ボタンを押します。
データの取り込み
データ取り込み用のCSVファイルをファイル名"TokyoWiFi.csv"でローカルPCに作成してください。
この時、区切り文字はコンマ(,)で作成し、1行名は列名NO, LATITUDE, LONGITUDEにしておきます。
このCSVファイルには、都内WiFiスポットの緯度(LATITUDE)、経度(LONGITUDE)が記録されているという想定です。
"TokyoWiFi.csv"のデータサンプル(こちらをコピーしてください)
NO LATITUDE LONGITUDE
71 35.672683 139.763619
72 35.672418 139.763633
73 35.672278 139.76312
77 35.678054 139.763734
78 35.673851 139.760934
95 35.680225 139.765465
119 35.6823669 139.7647158
130 35.674029 139.761086
131 35.67783 139.763609
134 35.672519 139.763535
171 35.67332 139.762627
198 35.677963 139.764955
199 35.678296 139.762831
200 35.680619 139.764145
205 35.679529 139.771492
207 35.675017 139.762686
データ・マネージャーの画面で青文字の”作成”をクリックし、”ファイルから表を作成する”を選びます。
点線で囲まれたエリア”ファイルをドラッグ・アンド・ドロップするか、クリックしてアップロードする”をクリックして、事前にローカルPCで作成しておいたCSVファイルをアップロードします。
CSVファイルのアップロードに成功すると、画面下部に読み込んだCSVファイルの列定義とデータが表示されます。画面をスクロールしてご覧ください。
列LATITUDEと列LONGITUDEのデータタイプがrealになっていますが、 次のステップでdoubleへ変更します(この後利用する地理空間関数と互換性のあるデータタイプにする必要があるためです)。
まず、列LATITUDEのデータタイプをdoubleへ変更します。
次に、列LONGITUDEのデータタイプをdoubleへ変更します。
それぞれ変更したら、”次へ”ボタンを押します。
カタログが”iceberg_data”になっていることを確認します。
“スキーマの作成”で作成したスキーマを指定し、表の名前を記入します。 英数字であること、スキーマ名.表名がハンズオン環境内で固有であれば、任意のもので構いません (ご自分の名前に座席番号を加える、など)。
”次へ”ボタンを押します。
画面をプルダウンすると、CREATE TABLE文が確認できます。”NO”列以外の列データタイプがdoubleになっていることを確認してください。問題なければ”作成”ボタンを押します。
取り込んだデータをデータ・マネージャー画面で確認してみます。表を選択し、”データ・サンプル”タブから表データを確認できます。
前述のデータサンプルを利用された場合、下記のスクリーン・ショットと表示結果は異なります。(データサンプルが表示されていれば問題ありません。)
データの照会
取り込んだデータを照会ワークスペースで照会してみます。取り込んだのは都内のWiFiスポットの緯度、経度データなので、東京駅から1000m以内にあるスポット数をSELECT文で記述し、実行し、調べてみましょう。
データの照会で利用するSQL:この画面からSQLをコピーしてご利用ください.
ただし、
スキーマ名のuser01は、前述のステップで作成されたスキーマ名に変更してください。
表名のuser01_wifiは、前述のステップでデータを取り込む際に指定した表名に変更してください。
SELECT count(*)
FROM iceberg_data.user01.user01_wifi
WHERE ST_Distance(
to_spherical_geography(ST_POINT(139.767, 35.681)),
to_spherical_geography(ST_POINT(longitude, latitude))
) <=1000
;
上記のSQLのスキーマ名、表名部分を前のステップで実際に作成したものにそれぞれ変更し、変更後のSQLを照会ワークスペースで実行してみましょう。
照会ワークスペースは”SQL”アイコンで呼び出すことができます。実行は青ボタンです。
結果は”14”になりましたか?
今回ご紹介した地理空間関数は、シンプルなものですが、距離などと関係するビジネス・データは多いので(例:最寄駅からの距離と不動産価格との関係など)セールス、マーケティングの商圏分析などにも地理空間関数を応用いただけます。
Part 3のまとめ
・データ・マネージャーでスキーマを作成しました。
・データ・マネージャーでファイルからCSVファイルを取り込み、その際に表も作成しました。
・データ・マネージャーでデータを取り込む際、データタイプを変更できることを学びました。
・照会ワークスペースにて、地理空間関数を使った照会(SELECT文)を実行しました。
Part 4(最終回)に続きます。
https://qiita.com/ibm_tk/items/8c103c0984568c02fef8