hive
sparksql

sparksqlでhive tableにinsertする歳にparquetのfieldはnullはだめだよーんと怒られる場合

More than 1 year has passed since last update.
  • 生ログをparseしてmap型を持つデータをhiven入れる
  • そのmap型はsize 0の可能性がある

size 0のmap型を含むをrowをhive tableにdf経由でいれるときに
エラーが発生する。

ぱかちょん回避策は

  • size 0の場合は、size 0だよんと教えるように、 Map("null" -> "")みたいなのをいれて、size 1にする。

であればエラーは発生しない。

parquetのバグっぽいので、hiveのissueに上がっている。

https://issues.apache.org/jira/browse/HIVE-8359