BigInsights,
HDP,
IBMSpectrumScale,
GPFS

Hadoop(HDP/BigInsights)でIBM Spectrum Scale(旧GPFS)を利用する際にはRangerの利用有無に気をつける

More than 1 year has passed since last update.

IBM Spectrum Scaleとは

IBM Spectrum Scale(ISS/旧GPFS)は、簡単に言うとマルチノードでデータを共有することができる非常に高速に動作するファイルシステムである。(詳細:https://www.ibm.com/developerworks/community/wikis/home?lang=ja#!/wiki/W8214c473fef0_444f_886a_cd015ca34c89/page/Spectrum%20Scale(%E6%97%A7GPFS))
Hadoopでは各ノードのローカルディスクをHDFSとして利用し、仮想的にデータを全ノードが保持しているように見せかけるが、GPFSではすべてのノードがデータへの直接アクセスが可能である。HDFSのファイル操作にはhadoopコマンドを利用する必要があったり、データの多重度がデフォルト3となり巨大なディスク空間を必要にするため、利用には注意点が必要となる。そこで、HadoopのHDFSをGPFSに置き換えることにより、POSIX準拠のファイルシステムとして操作可能(Hadoopのファイルに対してLinuxファイル操作コマンドの実行可能)、ディスク領域の有効活用をすることができるようになる。

ISSをHadoopのファイルシステムとして利用する際にはRangerの有無に注意

ISSはHortonworksのHadoopディストリビューションであるHDPやIBMのディストリビューションであるBigInsightsでサポートされている。利用する際には一点だけ注意が必要である。それは導入するクラスターでRangerを利用しているかどうかである。

Option名:gpfs.ranger.enabled (デフォルト:true)

Rangerが動作していないHadoopクラスターでデフォルト値trueのまま利用すると、GPFS側でRangerへのアクセスができない状態であると認識するため、GPFS側でアクセス関連情報を保持することになり想定するパフォーマンスが出なくなる。Rangerを利用していない場合は、この値を必ず false にセットする必要がある。