概要
本ページは、datatech-jp Advent Calendar 2021 12日目への投稿です。
この1年ほど、 BigQuery とデータポータルを使い、社内のデータ利活用が進みました。その取り組み内容を記事として残しておこうと思います。
課題
関連部署からデータ抽出の依頼があった場合、アナリストが都度 SQL で分析基盤からデータを取得し、結果をエクセル等 で依頼者に共有するようなケースは多いと思います。
私の周りではこの業務フローに関して下記のような問題が起こりがちでした。
- エクセルの行数がボトルネックになり、粗い粒度の集計結果しか提供できない
- 手動で抽出するケースが多く更新が手間
- 提供したデータの利用状況の確認が困難
- 定期更新はしているが、実際にはほとんど利用されていないファイルが散見
やったこと
集計でよく使うデータを BigQuery に定期的にコピー
エンジニアの協力の元、オンプレミスの分析基盤から必要なデータを BigQuery に取り込んでもらいました。
データが重くBigQuery への移行が難しいものに関しては、用途に応じて集約したりサンプリングしたテーブルを用意しました。
Google データポータルでダッシュボードを作成
BigQuery に移したテーブルをデータソースにして、Googleデータポータルでダッシュボードを作成しました。
エクセルのような行数の制約がなくったため、今までは可視化できなかったような切り口のダッシュボードを作ることができました。
Google データポータルに関するTips
Google データポータルに関しては細かい部分で躓くことが多かったため、いくつかメモを共有します。
(2021.12.12時点)
- 定期的に pdf をメール配信できる
- 共有 → 「メール配信をスケジュール」 で設定
- 複数のメールアドレスを登録した場合、各アドレスに都度メールが送られる
- 公式のドキュメントには記載が見つからなかったのですが、複数のメーリングリストを宛先に設定したところ、「自分のところに同じ内容のメールが複数届く」という指摘を受けました。データポータルの共有先を一つのメーリングリストにまとめることで重複送信に対応しました。
- 閲覧者のログは残らない
- Google spreadsheet 等と違い、どのデータポータルを誰が閲覧したか、ログは残りません。
- 今回は作成したダッシュボードの利用状況を把握したかったので、Google アナリティクスのタグをデータポータルに埋める対応を取りました。閲覧者を特定することはできませんが、ダッシュボードのセッション数とユーザー数は見れるようになります。
- カスタムクエリでは DECLARE が使えない
- どうやら使えないようです・・
社内イントラにダッシュボードへのリンクを貼った
ダッシュボードへの動線を確保するため、社内のイントラサイトにダッシュボードへのリンクを載せるようにしました。
URLだけでなく、データの更新頻度やオーナーが誰か、についても明記するようにしています。
ダッシュボード作成マニュアルの整備
アナリストのメンバー全員がダッシュボードを作成できるようにするため、
以下の情報をマニュアルとしてまとめました。
- BigQuery にデータをコピーする際の依頼フォーマット
- データポータル作成の方法
- Googleアナリティクスのタグ設置
- 社内イントラサイトへの掲載
所感
ダッシュボードが作られたことで、「こんなデータ出せないか」という要望に対して会話がしやすくなりました。
(例:「まずはダッシュボードを見て」「このダッシュボードにこの項目を追加するのはどうか」)
また、ダッシュボードがあることで「このデータを誰に見せるか」といった議論もしやすくなり、総じてデータ管理の面でレベルが上がったと感じています。