hive

Hiveで配列に複数の値が入っているものだけ抽出してみる

概要

TreasureDataで集計する際、配列型に複数の値が入っているものだけ抽出したくて調べたメモを残します。

SQLを書いてみる

td_global_idごとにHAVINGでuser_idが2つ以上あるものだけ抽出する。

SELECT
  td_global_id,
  COUNT(id) as ids
FROM
  dev.hoge
  LATERAL VIEW explode(user_ids) adTable AS id
GROUP BY
  td_global_id
HAVING
  COUNT(id) > 1
;

参考サイト