Qiita Teams that are logged in
You are not logged in to any team

Log in to Qiita Team
Community
OrganizationEventAdvent CalendarQiitadon (β)
Service
Qiita JobsQiita ZineQiita Blog
5
Help us understand the problem. What is going on with this article?
@hiro_koba_jp

S3上の分析データをLookerで可視化する最速タイムアタックやってみた

概要

皆さんはLookerのようなBIツールを利用する際、表示する分析データをどの様に収集していますか?
「サービス利用」「OSS活用」「スクラッチ開発」など様々だと思いますが、今回はどれだけ速くLookerで可視化出来るかという点にこだわって検証していきます。
私の考える限り最速のLooker可視化手順をご覧ください。

↓広告・CRMツール・DBなど、S3以外のLooker可視化事例もまとめていますので、宜しければ併せて御覧ください。
https://qiita.com/hiro_koba_jp/items/2b2caa040804e402bda7

構成

データの流れやシステムの構成は以下のとおりです。ETLツールにはtrocco(トロッコ)を、DWHにはBigQueryを利用しました。

S3 -> trocco(トロッコ) -> BigQuery -> Looker

S3上に置いてあるデータは↓のようなアクセスログで、500万行(350MB)位です。

$ head -n 5 access_log.csv
uid     url_path        time
b8a11206-473c-4397-8524-c61c77697b70    /landing_page/1 2020-12-08 21:33:09 +0900
b8a11206-473c-4397-8524-c61c77697b70    /speakers/24    2020-12-08 21:40:09 +0900
b8a11206-473c-4397-8524-c61c77697b70    /displays/45    2020-12-08 21:49:09 +0900
b8a11206-473c-4397-8524-c61c77697b70    /cart   2020-12-08 21:55:09 +0900

タイムアタックの前提

  • AWSやGCPのアカウントは事前に作成済みです
  • S3へアクセスする際の認証情報とかは予めメモしてあります
  • BigQueryへアクセスする際の認証情報は予め登録済みのものを使いまわしています
  • Looker上のconnectionは予め作成済みのものを利用しています

Let's タイムアタック!

タイムアタックの様子をスクリーンショットでお届けしていきます!

1. troccoでETLパイプライン構築 (1分15秒)

トップ画面から「転送設定を作成」をクリック
image.png

転送元・転送先を選択
image.png

設定画面に入り、S3の設定をしていきます
image.png

続いてBigQueryの設定です
image.png

入力しなければいけないのはこれだけです!わずか1分15秒でETLパイプラインが構築できました。
「保存して自動データ設定・プレビューへ」を押して次のステップに進みましょう。

2. troccoで構築したETLパイプラインの動作確認 (35秒)

続いて作成したETLパイプラインが正しく動くかどうか、動作確認していきます。
プレビュー生成画面に遷移したので、しばらく待ちます
image.png

約30秒ほどでプレビュー結果が返ってきました。合わせてカラムの定義(カラム名・データ型等)が正しいかも確認します
image.png

問題なさそうなので「保存して設定を完了」を押します

3. trocco ETLパイプラインを実行 (2分52秒)

保存後の画面右上に「実行」ボタンがあるので、これを押します
image.png

するとすぐにETLの実行が開始します。しばらく待ちます
image.png

ETLジョブの実行が完了しました。約2分46秒かかりました
image.png

trocco(トロッコ)でのETLはこれでおわりです。おおよそ5分弱でS3の分析データをBigQueryに保存出来た計算になります

4. LookerでProject作成 (40秒)

続いてLookerでの作業に移っていきます。

Projectを作成し、先程BigQuery上に転送したデータをLookerから扱えるようにします。Connectionを選択肢、データセット名などを入力するだけです
image.png

データセット内のテーブルがLookMLとして出力されるので、内容を確認します。特に問題なさそうです
image.png

5. Lookerでダッシュボードを作成 (1分40秒)

空のダッシュボードを作り、タイルを追加していきます
image.png

先程作成したProjectのExploreを選択します
image.png

グラフ作成画面が出てくるので、下の様に操作していきます
image.png

すると以下のようなグラフが出てきますので、右上の「保存」を押します
image.png

グラフの1つ目が出来ました
image.png

同じ要領でURL毎のアクセスカウントを集計し、最終的に以下のようなダッシュボードを作成しました
image.png

結果発表

7分ジャストでダッシュボードの構築が終わりました\(^o^)/

まとめ

いかがでしたでしょうか?私が考える限り最も速いLookerでの可視化方法のご紹介でした。
データを今すぐに分析しなければならない・・・そんな日々に追われている方、是非trocco(トロッコ)を利用してETLパイプラインを構築し、楽にLookerで可視化・分析を行われてはいかがでしょうか。

↓広告・CRMツール・DBなど、S3以外のLooker可視化事例もまとめていますので、宜しければ併せて御覧ください。
https://qiita.com/hiro_koba_jp/items/2b2caa040804e402bda7

trocco(トロッコ)は100種以上の分析データに対応しており、ETL&ワークフローが簡単に作れるサービスです。
無料トライアルを随時行っていますので、Lookerをご利用中の方は、是非ご自身のデータソースでお試し下さい。
https://trocco.io/lp/index.html

5
Help us understand the problem. What is going on with this article?
Why not register and get more from Qiita?
  1. We will deliver articles that match you
    By following users and tags, you can catch up information on technical fields that you are interested in as a whole
  2. you can read useful information later efficiently
    By "stocking" the articles you like, you can search right away
5
Help us understand the problem. What is going on with this article?