1. hiro_koba_jp

    No comment

    hiro_koba_jp
Changes in body
Source | HTML | Preview
@@ -1,105 +1,105 @@
## 概要
* PostgreSQLからBigQueryへデータを転送し、分析に使いたい
* 出来るだけ手軽に・簡単に・3分くらいで実現したい
* 分析基盤向けデータ統合サービス「[trocco](https://trocco.io/lp/index.html?utm_medium=social&utm_source=qiita&utm_campaign=postgresql_to_bigquery)」を使って実現してみる
※MySQL→BigQueryのデータ統合は、[こちら](https://qiita.com/hiro_koba_jp/items/8839bfb4fd3726f61f5a)の記事にあります
# troccoとは
[https://trocco.io/lp/index.html](https://trocco.io/lp/index.html)
* 分析基盤向けのデータ統合サービス
* 分析に必要な様々なデータ(DB/ストレージ/SaaS/API)を、DWHに統合可能
* DWH自体の管理機能や、運用保守サポート機能も豊富
## 用意するもの
* PostgreSQL接続情報(転送元テーブルへの読み取り権限が必要)
* 接続先ホスト(例 `trocco.hogehoge.ap-northeast-1.rds.amazonaws.com`)
* 接続先ポート(例 `5432`)
* 接続ユーザー(例 `readonly_user`)
* 接続パスワード(例 `hogehoge`)
* BigQuery接続情報(転送先データセット・テーブルへの書き込み権限が必要)
* JSON Key(例 `{''private_key_id'': ''123456789'', ''private_key'': ''-----BEGIN PRIVATE KEY-----...'', ''client_email'': ''...''}`)
-* MySQLのセキュリティ設定
- * troccoは`18.182.232.211` `13.231.52.164` `3.113.216.138`の3つのIPアドレスでMySQLに接続します
+* PostgreSQLのセキュリティ設定
+ * troccoは`18.182.232.211` `13.231.52.164` `3.113.216.138`の3つのIPアドレスでPostgreSQLに接続します
* ファイアウォールやセキュリティグループの設定でこのIPからのアクセスを許可する必要があります
* troccoの登録
* 無料トライアルもやっているみたいなので、事前に申し込み・登録しておいてください!
* URLは[こちら](https://trocco.io/lp/index.html?utm_medium=social&utm_source=qiita&utm_campaign=postgresql_to_bigquery)
* 申込時に、この記事を見た旨を記載して頂ければご案内がスムーズです
## 1. 転送設定を作成する
### 1-1. 転送元・転送先を決定
[トップページ](https://trocco.io/)より、転送元にPostgreSQLを、転送先にBigQueryを選択し、転送設定作成ボタンを押す
<img width="1792" alt="qiita_01.png" src="https://qiita-image-store.s3.ap-northeast-1.amazonaws.com/0/61228/39c26d25-8c6e-2345-a3b7-d865c21e2db4.png">
すると、以下のような画面になるかと思いますが、これが設定画面です。
わからないことは右下のチャットで、直接聞いたりSlackのサポートから問い合わせることが出来ます。
<img width="1791" alt="qiita_02.png" src="https://qiita-image-store.s3.ap-northeast-1.amazonaws.com/0/61228/fd749b17-8565-df04-2c6f-d8214090756a.png">
### 1-2. 接続設定を作成
転送設定の名前とメモを適当に入力したら、「転送元の設定」内の「接続情報を追加」ボタンを押します。
<img width="1116" alt="qiita_03.png" src="https://qiita-image-store.s3.ap-northeast-1.amazonaws.com/0/61228/45ab65e1-ea59-6b92-87c1-7505e263ff03.png">
別タブで接続情報の新規作成画面が開きますので、予め準備した接続情報を入力して下さい。
<img width="734" alt="qiita_04.png" src="https://qiita-image-store.s3.ap-northeast-1.amazonaws.com/0/61228/24a6aad8-2544-cfe3-c4df-6c51ffbe27b0.png">
再度転送設定画面に戻り、PostgreSQL接続情報の「再読込」ボタンを押すと、作成した接続情報が選択できるかと思います。
<img width="1086" alt="qiita_05.png" src="https://qiita-image-store.s3.ap-northeast-1.amazonaws.com/0/61228/7402f6bd-3210-553b-31f1-bcfd31f41b75.png">
このステップが若干面倒ではありますが、一度保存した設定は再利用したり、チーム内で共有することが出来ます。
### 1-3. 転送元の設定
下記のように入力します。接続確認を押せば、入力した情報が正しいかを確認出来ます。
差分転送機能もサポートしているので、日次で増分データのみ転送したいみたいな用途にも使えます。
<img width="883" alt="qiita_06.png" src="https://qiita-image-store.s3.ap-northeast-1.amazonaws.com/0/61228/ddcb6c27-8cd5-1817-8d85-925fd38f0d00.png">
### 1-4. 転送先の設定
転送元と同じ要領で設定していきます。
データセットとテーブルは既存のものを使っても良いですし、新しい名前で入力した上で自動生成オプションを有効にすれば、自動で作成されます。
転送モードは`append(追記)`や`replace(テーブル作り替え)`などが選択可能で、いずれもトランザクション内で処理されるため、途中で処理が失敗したらロールバックされます。
少量のデータを定期的に転送する場合は`replace`を、大量データで増分のみを転送する場合は`append`を選択すると良いかと思います。
<img width="897" alt="qiita_07.png" src="https://qiita-image-store.s3.ap-northeast-1.amazonaws.com/0/61228/50baad1f-955e-5331-1792-da7c43cc994e.png">
また、入力した情報に誤りがないか、疎通確認や権限確認をすることが出来ます。
(転送元も同様に確認が出来ます)
<img width="1047" alt="qiita_08.png" src="https://qiita-image-store.s3.ap-northeast-1.amazonaws.com/0/61228/77fa5c51-b81a-ef60-8f97-b5e01cc5f9d6.png">
この段階で疎通や権限が正しいことを確認できると、安心感がありますね。
## 2. プレビューを確認
転送元のデータがプレビューされます。列名や、自動推論されたデータ型が正しく判定されているか確認して下さい。
<img width="1792" alt="qiita_09.png" src="https://qiita-image-store.s3.ap-northeast-1.amazonaws.com/0/61228/c10ad6b0-4a3a-0c5e-a072-00ce97edb33c.png">
データのスキーマは自動で推論されますので、間違っていたら「データ設定」タブから修正することも出来ます。
また、BigQueryの分割テーブルなど、詳細な設定も「入力設定」や「出力設定」から行うことが出来ます。
<img width="1419" alt="qiita_10.png" src="https://qiita-image-store.s3.ap-northeast-1.amazonaws.com/0/61228/95de8891-ba76-dbea-6f1c-fcea86893262.png">
## 3. 定期実行・Slack通知を設定
最後は定期実行のスケジューリングや、通知設定の入力画面です。
<img width="1792" alt="qiita_11.png" src="https://qiita-image-store.s3.ap-northeast-1.amazonaws.com/0/61228/1f9cb120-8ab9-2a31-31c5-bec01c93e5d0.png">
日次バッチだったら、以下のようなUIで、数クリックで設定可能です。
(最短1分間隔で転送可能)
<img width="499" alt="qiita_12.png" src="https://qiita-image-store.s3.ap-northeast-1.amazonaws.com/0/61228/06167554-05ef-9f7b-182f-6a0cb6d1669f.png">
地味に嬉しいのが、この通知設定。
当然ジョブが失敗したらSlack通知とかはできるんですが、よくある「データが0件でジョブが正常完了してしまった」みたいなのまで検知できるんです。
<img width="1792" alt="qiita_13.png" src="https://qiita-image-store.s3.ap-northeast-1.amazonaws.com/0/61228/31dbdea1-0fec-e7c7-7f1f-2b4e71ab9601.png">
## 4. ジョブ実行
定期実行の他に、アドホックな実行も可能です。
下図の実行ボタンを押せば実行が始まります。
<img width="1792" alt="qiita_14.png" src="https://qiita-image-store.s3.ap-northeast-1.amazonaws.com/0/61228/f3a9e9d8-9d71-a1c4-2d5a-62b6d447fd6c.png">
実行画面こんな感じです。ちなみにジョブ実行のたびに専用コンテナが立ち上がり、かつCPUやメモリの割当を動的に変更できるので、パフォーマンス要件が厳しい場合も大丈夫らしいです。
<img width="1792" alt="qiita_15.png" src="https://qiita-image-store.s3.ap-northeast-1.amazonaws.com/0/61228/4b1832ac-21a8-6a6a-d557-d2ddea3712ea.png">
## まとめ
* troccoを使うことで、約3分ほどでデータの転送設定を作ることが出来ました
* 昨今機会が急激に増えつつあるデータ転送を、より手軽に実現できました
* 複雑な作業はほぼないので、エンジニアだけでなく、マーケター・ディレクターの方まで幅広く利用出来るかと思います
※1 今回は[embulk-input-postgresql](https://github.com/embulk/embulk-input-jdbc)と[embulk-output-bigquery](https://github.com/embulk/embulk-output-bigquery)のホスティング環境を利用