AWS
glue

AWS Glueでカンマを含むCSVは読み込めませんでした

はじめに

  • 以下のようなcsvファイルをAWS Glueで読み込んだところカラム名が読み取れずしばらく悩んでましたが、なんてことはないカンマを含む値が読み取れなかっただけでした
test.csv
Column0,Column1,Column2
hoge,"fu,ge",hage
foo,bar,baz

desc test

  • スクリーンショット 2017-12-19 16.47.12.png
    • カラム名が読み取れてない

select * from test

  • スクリーンショット 2017-12-19 16.47.57.png
    • Colums1の値がカンマで分けられ "fu ge" に分離してしまっている…

解決策

test.json
{"Column0":"hoge","Column1":"fu,ge","Column2":"hoge"}
{"Column0":"foo","Column1":"bar","Column2":"baz"}