Impala

特定のパーティションのみ統計データを更新する

データの新規追加を行った際に COMPUTE STATS <テーブル名> を実行して統計データを取得するのは定石であるが、テーブルが巨大になると、COMPUTE STATS を毎回実行するだけでもかなりの時間がかかってしまう。
そこで、 COMPUTE INCREMENTAL STATS を使い、新規に追加したデータを含むパーティションのみ統計データを更新する。

実行例

COMPUTE INCREMENTAL STATS tbl PARTITION (dt='20171201');

参考