Connect to Looker | Databricks on AWS [2023/2/3時点]の翻訳です。
本書は抄訳であり内容の正確性を保証するものではありません。正確な内容に関しては原文を参照ください。
本書では、DatabricksクラスターやDatabricks SQLウェアハウス(以前のDatabricks SQLエンドポイント)でどのようにLookerを活用するのかを説明します。
重要!
persistent derived tables (PDTs)が有効化されている場合、Lookerはデフォルトで5分ごとに関連づけられているデータベースに接続してPDTを生成します。計算コストの増加を避けるためにデフォルトの頻度を変更することをお勧めします。詳細は、persistent derived tables (PDTs)の有効化と管理をご覧ください。
要件
手動でLookerに接続する前に以下のものが必要となります:
-
DatabricksワークスペースのクラスターあるいはSQLウェアハウス
-
クラスター、SQLウェアハウスの接続詳細情報、特にServer Hostname、Port、HTTP Pathの値。
-
Databricksパーソナルアクセストークン
注意
セキュリティのベストプラクティスとして、自動化ツール、システム、スクリプト、アプリで認証を行う際、ワークスペースのユーザーではなくサービスプリンシパルに属するアクセストークンを使用することをお勧めします。サービスプリンシパルのアクセストークンを作成するには、Manage access tokens for a service principalをご覧ください。
手動でLookerに接続する
手動でLookerに接続するには以下を実行します。
-
ユニークな接続Nameを入力します。
ティップス
接続名には小文字、数字、_のみを含めることができます。他の文字列が許容されることがありますが、あとで予期しない挙動を引き起こす可能性があります。 -
DialectではDatabricksを選択します。
-
Remote Hostには、要件にあったServer Hostnamを入力します。
-
Portには、要件にあったPortを入力します。
-
Databaseには、接続を通じてアクセスしたいワークスペースのデータベース名を入力します(
default
など)。 -
Usernameには
token
と入力します。 -
Passwordには、要件にあったパーソナルアクセストークンを入力します。
-
Additional Paramsには、
transportMode=http;ssl=1;httpPath=<http-path>
を入力し、<http-path>
を要件にあったHTTP Pathを入力します。 -
PDT And Datagroup Maintenance Scheduleには、PDTの再生成のデフォルト頻度を変更するために適切な
cron
エクスプレッションを入力します。デフォルトの頻度は5分ごとです。 -
クエリーを別のタイムゾーンに変換したい場合には、Query Time Zoneを調整します。
-
残りのフィールドはデフォルトのままにします。特に:
- Max ConnectionsやConnection Pool Timeoutはデフォルトのままにします。
- (あなたがすべてをUTCで格納していることを前提として)Database Time Zoneはブランクのままとします。
-
Test These Settingsをクリックします。
-
テストが成功したらAdd Connectionをクリックします。
Lookerでデータベースをモデリングする
このセクションではプロジェクトを作成し、ジェネレーターを実行します。以下のステップは、接続するデータベースにパーマネントテーブルが格納されていることを前提としています。
-
DevelopメニューでDevelopment Modeをオンにします。
-
Develop > Manage LookML Projectsをクリックします。
-
New LookML Projectをクリックします。
-
ユニークなProject Nameを入力します。
ティップス
接続名には小文字、数字、_のみを含めることができます。他の文字列が許容されることがありますが、あとで予期しない挙動を引き起こす可能性があります。 -
Connectionでは上で作成した接続名を選択します。
-
接続を通じてモデリングする別のデータベースがない限り、Schemasには
default
を入力します。 -
残りのフィールドはデフォルトのままとします。特に:
- Starting PointはGenerate Model from Database Schemaのままとします。
- Build Views FromはAll Tablesのままとします。
-
Create Projectをクリックします。
プロジェクトを作成し、ジェネレーターを実行すると、Lookerはユーザーインタフェースに一つの.model
ファイルと複数の.view
ファイルを表示します。.model
ファイルはスキーマ内のテーブルと、検知されたテーブル間のjoinリレーションを表示し、.view
ファイルはスキーマ内のそれぞれのテーブルで利用できる個々のディメンション(カラム)を一覧します。
次のステップ
プロジェクトで作業を始めるには、LookerWebサイトの以下のリソースを参照ください。
persistent derived tables (PDTs)の有効化と管理
Lookerでは、persistent derived tables (PDTs)を作成することで、クエリーの時間とデータベースのロードを削減することができます。PDTは、Lookerがお使いのデータベースにスクラッチスキーマを書き込む派生テーブルです。Lookerは指定したスケジュールでPDTを再生成します。詳細はLookerドキュメントのPersistent derived tables (PDTs)をご覧ください。
データベース接続でPDTを有効化するには、当該の接続でPersistent Derived Tablesを選択し、画面に表示される手順を完了します。詳細については、LookerドキュメントのPersistent Derived TablesやConfiguring Separate Login Credentials for PDT Processesをご覧ください。
PDTが有効化されると、Lookerはデフォルトで5分ごとに関連づけられているデータベースに接続してPDTを再生成します。Lookerは、関連づけられているDatabrikcsのリソースが停止している場合には、これを再起動します。データベース接続設定で、適切なcron
エクスプレッションを用いてPDT and Datagroup Maintenance Scheduleを設定することでデフォルトの頻度を変更することをお勧めします。詳細については、LookerドキュメントのPDT and Datagroup Maintenance Scheduleをご覧ください。
PDTを有効化する、あるいは既存のデータベース接続設定のPDT再生成頻度を変更するには、Admin > Database Connectionsをクリックし、データベース接続設定のの隣のEditをクリックし、上述の指示に従います。