Posted at

sparksqlでhive tableにinsertする歳にparquetのfieldはnullはだめだよーんと怒られる場合

More than 3 years have passed since last update.


  • 生ログをparseしてmap型を持つデータをhiven入れる

  • そのmap型はsize 0の可能性がある

size 0のmap型を含むをrowをhive tableにdf経由でいれるときに

エラーが発生する。

ぱかちょん回避策は


  • size 0の場合は、size 0だよんと教えるように、
    Map("null" -> "")みたいなのをいれて、size 1にする。

であればエラーは発生しない。

parquetのバグっぽいので、hiveのissueに上がっている。

https://issues.apache.org/jira/browse/HIVE-8359