More than 5 years have passed since last update.

Embulkについて

Last updated at 2019-03-29Posted at 2018-11-15

データ分析基盤入門を読んだまとめ。
個人的に必要そうな部分についてのみ。

Embulkについて。

総論

利用方法やどこに特化しているかを理解する

Embulkとは

バッチ型の並列・分散バルクデータローダー
簡単にいうと大量データを効率良く転送するためのツール
並列処理を有しているだけで並列定義できるわけではない(それはdigdag)

登場背景

準リアルタイム収集化によるユースケースの増加

影響
- 抽出バッチ設定ファイル煩雑化による属人化・保守性の低下
- 定期的な大量読込

読出対象例

CSVファイル
S3
MySQL
PostgreSQL

できること

抽出・加工・出力処理を設定ファイルで組み合わせること
組み合わせによる直列・並列度、流量、タイミングの調整(パイプライン処理)
処理単位制御
再継続処理
エラー・リトライ制御

特徴

プラグイン拡張
スキーマを用いたデータバリデーション

使い所

一時的な処理負荷がかかるケース例
- 日次パーティショニングされたスキーマへの日またぎ出力時
- ログ増加と集計処理の同時間帯発生時
- メモリ容量逼迫によるインデックス更新遅延時

書籍情報

鈴木健太, 吉田健太郎, 大谷純, 道井俊介, データ分析基盤構築入門
https://amzn.to/2B6f8G5

雑感

文脈の中でややこしい表現がある
読込・読出・書込・書出
ETLのE(抽出)に対して読出・読込
T(変換)には実質加工も含まれるので変換・加工と表記
L(読込)は出力対象に対して「読込ませる」という意味でのL
Lの対象に書出・書込
と解釈
ただ読込は対象や活用形によって対象がどちらにもなるのでこの辺りは表記揺らさない方が良さそう

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up