Dataworks Summit Munichi 2017でも発表されましたが、今月(2017年4月)にHDP2.6がリリースされました。
今回はこのHDP2.6について説明していきたいと思います。
HDP2.6のハイライトは以下になります。
- Interactive Query in Seconds: Hive with LLAP and ACID Merge
- Enterprise Spark at Scale: Spark 2.1 and Zeppelin 0.7
- Real-Time Applications: HBase/Phoenix and Druid Support
- Streamlined Operations: Apache Ambari 2.5
- Dynamic Security: Enhanced Administrator Productivity
それぞれ簡単に説明していきます。
Interactive Query in Seconds: Hive with LLAP and ACID Merge
HDP2.6からLLAP(Low Latency Analytical Processing)とACID Mergeが正式にサポートされました。
LLAPは、Hiveの新しいアーキテクチャで、最適化されたインメモリキャッシュと、YARNクラスタ内でクエリエグゼキュータをデーモン化することで、HadoopスケールでMPPパフォーマンスを実現します。LLAPはHDP2.5でテックプレビューとして入ってましたが、HDP2.6から正式にサポートされました。
LLAPの詳細については以下の資料をご覧ください。
ACID Mergeは、Hadoopのデータメンテナンスのための機能です。insert、update、およびDeleteをシングルパスで処理することができるので、開発者はHadoopにデータを入れるためにこれまでやってきたような、複数ステージの更新パイプラインを実装する必要はなく、複雑なロールバックやリトライロジックを開発する必要もありません。さらに、HiveのACIDシステムは、書込みの競合を制御してくれるので、データを書き込み中に読み込みをしても問題ありません。
ACID Mergeの詳細については以下の資料をご覧ください。
それ以外にもHive関連では、TPC-DSのすべてのクエリがサポートされたり、AmbariのHive View 2.0もリリースされています。
Enterprise Spark at Scale: Spark 2.1 and Zeppelin 0.7
Spark2.1が入り、SparkSQLでRow Columnレベルのセキュリティがサポートされました。またLivyもGAとなり正式サポートされています。また、Zeppelin0.7では、Spark2.xがサポートされ、その他にもKnoxベースのLDAPインテグレーションやSmartSenceのインテグレーション、そしてJDBCの改善がされています。
Real-Time Applications: HBase/Phoenix and Druid Support
HBase(とSpark)のアップデートとしては、Spark-HBase(RDD)コネクタが正式にサポートされました。また、Phoenixとしてはインデックス機能の安定化等がされています。
そして、HDP2.6からDruidがテックプレビューとして追加されています。Druidは、大規模なデータに対するリアルタイムな探索的分析のために設計されたオープンソースのデータストアです。列指向のデータフォーマットとなっており、分散型でシェアードナッシングのアーキテクチャー、そして高度なインデックス構造を組み合わせて、低レイテンシなクエリ実行を実現しています。
Druidについて詳細に知りたい方は以下のドキュメントをご覧ください。
Streamlined Operations: Apache Ambari 2.5
Ambariは2.5になっています。アップデートとしては、以下になります。
- ノードを再起動させた時に、起動させるコンポーネントを選べるようになった
- Grafana上でHDFSのアクティブなユーザやオペレーション数の上位N件のビジュアライズ
- ログローテーションの設定が簡単になった
Dynamic Security: Enhanced Administrator Productivity
Rangerのアップデートは以下です。
- Seamless Policy Portability: Moving security policies en masse from one environment to another
- Easy of Use: Support for $username & Macro Variables in Ranger Policies
- Enterprise Ready: SSL Support for Spark Streaming Connections to Kafka
Atlasのアップデートは以下です。
- Ease of Use: Streamlined APIs makes it easy for customers and partners to build extensions
- Enterprise Ready: Extend Tag-based Policy Support to HDFS, Kafka and HBase
- Ease of Use: Knox SSO for Atlas UI