記事の概要
本記事はTableauにwatsonx.dataのPrestoを繋げてみた記事です。
BIツールとしてTableuauを使用することも多く、そのデータソースとしてレイクハウスソリューションであるwatsonx.dataに繋げられるか試してみたくなりました。
レイクハウスwatsonx.dataの格安エンジンPrestoに繋げてみて、watsonx.dataに繋げてあるNetezza内のデータとIBM Cloud Object Storageにアクセスしてみようと思います。
watsonx.data編
こちらの記事「watsonx.dataのPrestoをDomoに繋げようとしてみた」を参照してください。
エンジンとして、Prestoを使用します。
フェデレーション先のデータベースとしてNetezzaを使用します。
IBM Cloud Object Storage(以下ICOS)をデータレイクとして使用します。
Netezzaには、「demo」スキーマ内に「airline_delay_cause_2018_local」テーブルがあります。
ICOSには、「test」スキーマがあり、「CREATE TABLE AS SELECT」でNetezzaのテーブルをICOS内に「test2」として作成します。
Tableau編
Tableauは、「接続からコラボレーションまでをスムーズに行える、極めて強力でセキュアかつ柔軟な、エンドツーエンドの分析プラットフォームです。」(HPから引用)
データの可視化を行うTableau Desktopがどうやら14日間無料で使えるらしく、私も実際にダウンロードしてみて使ってみました。
Tableau Desktopのインストール
-
こちらにアクセスします。
- 「無料トライアルを始める」を選択すると以下のページに遷移します。
- 「無料トライアルをダウンロード」を選択する。ダウンロードした後は、画像に沿って、ファイルを開き、インストール、登録まで行います。
Prestoのドライバーをインストール
- それでは、早速watsonx.dataのPrestoに繋げてみよう、、、とTableau Desktopを開いて、「サーバーへ」の「その他」から「Presto」を選択するも、「このコネクターを使用するには、まずドライバーをダウンロードしてインストールする必要があります」と表示されました。(以下の画像では、すでにPrestoのドライバーをダウンロードしてしまったので、代わりにPostgreSQLを選択してます)
-
「ドライバーをダウンロードします」を選択すると以下のページに遷移します。PrestoとTrinoでは、必要なドライバーが異なるためご注意ください。今回は「PrestoDBに接続している場合は、PrestoDBページから必要なドライバーをダウンロードしてください」を選択します。
- Prestoに必要なドライバーが欲しいので、JDBC Driverの「presto-jdbc-0.283.jar」を選択します。
- ダウンロードしたファイルを「~/Library/Tableau/Drivers」に置きたいのですが、フォルダがない場合もあるので、まずはフォルダをlsコマンドで確認します。
ls ~/Library/Tableau
# Drivers
フォルダがあったので、そこにダウンロードしたjarファイルを移動します、その後ファイルの移動の成功を確認します。
# ダウンロードフォルダにあるjarファイルを「~/Library/Tableau/Drivers」に移動
mv /Users/niwa/Downloads/presto-jdbc-0.283.jar ~/Library/Tableau/Drivers
# lsで確認
ls ~/Library/Tableau/Drivers
# presto-jdbc-0.283.jar
再度Tableau DesktopのPrestoを選択するとPretoに繋げられそうになっていました。
Prestoへ接続
- 接続に必要な、watsonx.dataのサーバー、ポート、カタログ等々に情報を入力していきます。これらの情報の取得方法は、こちらの記事を参考にしてください。全ての情報を入力し「サインイン」をおして、以下のような画面へ遷移したら成功です。
- watsonx.dataのPrestoに繋げてあるNetezzaの「airline_delay_cause_2018_local」を読み込もうと思います。
- Tableau Desktopの「テーブル」に必要なテーブル名「airline_delay_cause_2018_local」を入力して、虫眼鏡マークを押してください。テーブルがあれば、その下にテーブル名が表示されます。
- その後見つけたテーブル名をダブルクリックまたは右側にクリック&ドロップするとテーブルを確認することができます。
- このデータを可視化して分析する場合は、左下の「ワークシートに移動」を選択します。そうすると以下のようなページに遷移します。
- このデータは2018年の飛行機の遅延情報が入っているので、列にMonth(月)、行にAir Delayの合計を入れて、月毎の飛行機が遅れた時間を出してみました。
蛇足
あまり使わないデータをレイクハウス(オブジェクトストレージ)にオフロードして、そのデータを読み込むのも当然できるかと思いますが、念の為。。。
- 今回はテーブルを削除したくないので、watsonx.dataの「照会ワークスペース」を開き、「CREATE TABLE AS SELECT」にて、Netezza内にある「airline_delay_cause_2018_local」をICOSに「test2」というテーブル名で作成します。
CREATE TABLE
iceberg_demo_niwa.test.test2
with (format = 'PARQUET')
AS SELECT * FROM
nz_demo.demo.airline_delay_cause_2018_local
;
2. 左側の関連づけられたカタログ内に作成されたことが確認できればOKです。
その後TableauにてNetezzaの時と同様な処理を行ったところ、ICOS上にある「test2」も同様に見ることができました。
所感
TabeauをBIツールとして使うことも多くあるので、watsonx.dataのPrestoに繋げられてよかったです。
Prestoのフェデレーションやレイクハウスを使うことで、ストレージを意識せずに欲しいテーブルを移動せずにすぐに使えるのはいいと思います。ただ、欲しいデータがどこにあるのかを把握しなきゃいけないので、そこは自然言語で問い合わせをすることができる、Semantic Automationが早く出てくることを願ってます。
また、今後マルチエンジン対応した時に、Db2 WarehouseやNetezza、snowflake、Redshiftなどのエンジンを使い分けた際のスピード感や、オブジェクトストレージとブロックストレージに入れた時のスピードの違いも味わってみたいです。