parquetファイルをローカルにて簡単に確認できるツール、parquet-toolsを試してみた。
s3などでも簡単parquetファイルをみれたりするが、データ型などの確認などを行う機会も多いと思うので、
そういった場合に非常に有用なツール
Parquet-toolsインストール方法
2019/02/24試行
1段階目 maevenのインストール
wget http://ftp.yz.yamagata-u.ac.jp/pub/network/apache/maven/maven-3/3.3.9/binaries/apache-maven-3.3.9-bin.tar.gz
1
tar xzvf apache-maven-3.3.9-bin.tar.gz
1
2
$ ./apache-maven-3.3.9/bin/mvn -version
Apache Maven 3.3.9 (bb52d8502b132ec0a5a3f4c09453c07478323dc5; 2015-11-10T16:41:47+00
2段階目 parquet-tools のビルド
git clone https://github.com/apache/parquet-mr.git
cd ./parquet-mr/parquet-tools/
↓
ビルド実行
mvn clean package -Plocal
ビルドされたjarは
./target
すなわち
/Users/ユーザー名/parquet-mr/parquet-tools/targetに吐き出されている。
執筆当時はparquet-tools-1.12.0-SNAPSHOT.jarだったが、バージョンは変わっている可能性があるので、lsで確認してビルド実行をする必要あり。
コマンドとしては
java -jar ./parquet-tools-1.6.0.jar
の後に
・ cat (中身の確認)
・ head (ヘッダの確認)
・ schema (スキーマの確認)
・ meta (メタ情報の確認)
とオプションをうつことで中身の確認ができる
例えばcatを使う時は
java -jar ./parquet-tools-1.6.0.jar cat test.parquet
のようなコマンドを実行する。