error: Spectrum Scan Error
code: 15007
context: File 'https://s3.ap-northeast-1.amazonaws.com/xxx.snappy.parquet' has an incompatible Parquet schema for column 's3://xxx
query: 00000
location: dory_util.cpp:1671
process: worker_thread [pid=000]
デフォルトはCSVで、Parquetに変更することでエラーが発生する。
原因1
CSV形式
- データはテキストとして保存される
- 各フィールドは文字列として扱われ、データ型の情報は含まない
- Redshiftにデータをロードする際、必要に応じてデータ型のキャストや変換が自動的に行う
Parquet形式
- データとともにスキーマ情報(データ型、列名など)を持つ
- 各フィールドのデータ型が明示的に定義され、厳密に管理される
- Redshiftにデータをロードする際、ParquetファイルのスキーマとRedshiftテーブルのスキーマが完全に一致する必要がある