概要
イベントで登壇した際に『TROCCO クックブック』を入手したため、その内容を実践しました。本記事では、実践にあたり必要となる環境準備や手順をまとめています。書籍では S3 を利用した例が掲載されていますが、今回は環境を容易に用意できる Google Drive を利用する形に変更しています。
引用元: TROCCOを通じてデータエンジニアリングを学べる解説書「TROCCO クックブック」販売開始 | 株式会社primeNumberのプレスリリース
引用元: TROCCOで高めるDatabricksのポテンシャル~データレイクを生成AIで分析する新時代へ~ #trocco - Qiita
Amazon でも購入可能です。
TROCCO 環境準備
TROCCO のフリープランを申し込みます。
引用元: フリープランお申し込み|TROCCO®︎(トロッコ)
CHAPTER 1
環境準備
Kintone 環境の準備
まずは Kintone の開発環境を準備します。 詳しい手順はこちらを参照してください。
次に、サンプルデータを含む Excel ファイルを作成します。
本データは書籍内容とは異なるため、必要に応じて書籍に記載のデータへ修正してください。
ID | date | prefecture | address1 | postal_code |
---|---|---|---|---|
A001 | 2025/2/2 0:00:00 | Tokyo | Shibuya | 150-0001 |
A002 | 2025/2/1 1:00:00 | Osaka | Kita | 530-0001 |
A003 | 2025/1/31 2:12:00 | Hokkaido | Sapporo | 060-0001 |
作成した Excel ファイルを Kintone にアップロードし、アプリを作成します。
Google BigQuery のサンドボックス環境を準備
Google Cloud のコンソールから、BigQuery のサンドボックス環境を有効化します。
引用元: BigQuery サンドボックスを有効にする | Google Cloud
その後、データセットを作成します。
書籍の内容を実施
書籍に沿って手順を進めます。以下は実際の操作例です。
つまずいたポイント
SECTION 3 データプレビュー・詳細設定
Kintone 側でカラム名が適切に設定されていなかったため、TROCCO 側で修正しました。
SECTION 3 データマート定義の作成
postal_code
を誤って postral_code
として連携してしまったため、データマートの SQL を以下のように修正して対応しています。
SELECT
ID,
concat(postral_code, ' ', prefecture, address1) AS address,
date
FROM
trocco_cookbook.trocco_cookbook
CHAPTER 2
TROCCO の操作手順がないため、本記事での詳細解説は割愛します。
CHAPTER 3
環境準備
書籍の手順では S3 となっていたため、Google Drive 環境を準備しました。
下記の CSV を配置します。なお、このデータは書籍内容のサンプルデータとはことなります。
氏名,年齢,登録日時,更新日時,運転免許証
"山田太郎","30","2025-01-01 10:00:00","2025-01-02 15:00:00",true
"鈴木花子","25","2025-02-01 09:00:00","2025-02-02 14:00:00",false
"佐藤次郎","40","2025-03-01 08:30:00","2025-03-01 18:00:00",true
TROCCO 上で Google Drive の接続情報を作成します。
Google Drive -> BigQuery の転送ジョブを作成します。
Google Drive の基本設定では、フォルダID
、ファイル名の正規表現
、および、入力ファイル形式
を入力する必要があります。フォルダID
はファイルの URL から、 ファイル名の正規表現
はファイル名を入力します。
データプレビュー・詳細設定
の画面にて、データを表示されることを確認します。
書籍の内容を実施
書籍どおりにサンプルファイルを作成し、手順を進めていきます。
CHAPTER 4
環境準備
本章で必要な環境は、前章までの手順ですでに構築済みのため省略します。
書籍内容を実施
事前に作成した下記環境を利用して手順を実施します。書籍の SECTION 3 にあるタイムゾーン設定は、本番環境で課題となり得るため、背景を含めて理解しておくことをおすすめします。
- BigQuery
- Google Drive
- Kintone
まとめ
本記事では『TROCCO クックブック』の内容をもとに、TROCCO フリープランを活用したデータパイプラインの構築例を紹介しました。書籍では S3 を利用した例が示されていますが、今回はより手軽な Google Drive を活用しています。
具体的には、次の環境を整えました。
-
TROCCO フリープラン
- Kintone → BigQuery へのデータ連携を設定。
- 書籍のサンプル操作を実行し、データのプレビューやデータマート定義などを学習。
-
Kintone 環境
- 開発者ライセンスを申し込んでアプリを作成し、Excel ファイルからサンプルデータを取り込み。
-
BigQuery サンドボックス
- 無料枠であるサンドボックス機能を有効化し、データセットを用意。
-
Google Drive
- Google Drive のフォルダにファイルを配置してデータを取り込み。
手順どおりに進めることで、 TROCCO のノウハウを習得できます。データ連携においては、書籍の内容だけでなく自分の環境に合わせて細かな修正が必要になる点を理解しながら進めることが重要です。