Auto Loader と COPY INTO使い分け

Posted at 2025-08-15

Databricks の Auto Loader と COPY INTO はどちらも外部ストレージから Delta Lake やテーブルにデータを取り込むための機能ですが、
アーキテクチャや用途が大きく違います。

1. Auto Loader

概要
- ストリーミングベースの継続的取り込み
- 新規ファイルのみを自動検出して取り込む（状態を保存）
- スキーマ進化（addNewColumns, rescue など）に対応
特徴
- Incremental ingest（増分取り込み）
- 検出モード：
  - File Notification モード（高速＆コスト効率）
  - Directory Listing モード（簡単設定）
- 取り込みの状態管理は自動（checkpoint使用）
用途
- 継続的データ収集（IoTログ、イベントストリーム、毎日追加されるCSVなど）
- データ到着タイミングがバラバラな場合

例

(spark.readStream
     .format("cloudFiles")
     .option("cloudFiles.format", "json")
     .load("/mnt/raw/data"))

例

COPY INTO my_table
FROM 's3://my-bucket/data/'
FILEFORMAT = PARQUET
PATTERN = '*.parquet';