序
数年前にApacheのトッププロジェクトになったKuduは、 そこそこの規模までのビッグデータの蓄積役と分析役を容易に兼ねられるというデータストアである。
『分散型データストアApache Kuduの特徴とユースケース』などを読んでいただくと分かるように、データ分析に使い勝手が良さそう。
だが、何かが地味である。MongodbやCassandraなどのNoSQLが騒がれたのは10年前。今更NOSQLなメンバーが増えても皆さんの関心がわかないのか、データ分析という分野がマイナーだからなのか。
(出典) https://bokete.jp/boke/56711221
基幹システムをKuduで再構築することになった私。
日頃私はデータエンジニアを名乗っているのだが、先月までKuduをスルーしていた。
紹介記事は目にしたのだが、顔と名前が一致しないといった状態。
ところが7月から加わったチームでは、Hadoop(HDFS)とKuduを中心にシステムを組んでいっている模様。
しかも、私が日本側の主担当に指名されるとのこと。
案件としては、構築から50年近くを経ているメインフレームを移行するシステム開発だ。
経緯は知らないが、移行先の主役に彼女(Kudu)が抜擢されたらしい。
出会いはいつも突然だ。私とKuduとの日々が始まった(システムの移管予定は3年後なので、少なくとも数年間は付き合うことになるだろう)
とはいえ、いかにもな事情で、私に配布されたPCにはもろもろのアプリをインストール申請中なので、当面は、kuduのサイトをちらちら眺め続けるだけ。
ぱっと見地味なKuduだが、なかなか良さそうである。
来週には『Kudu本』が届くので、sparkやpythonからのアクセスのお作法などをこれから学んでいく。
インストールしてみよう。
だが、眺めているだけではもちろん、実際のところはわからない。
せめて、週末に自宅PCにインストールしてみようかと。
お試しなので、お気軽にWindows 10のWSL(Ubuntu)に入れてみようと、公式サイトからインストールすることに。
インストールに必要なパッケージ。
sudo apt-get -y install autoconf automake curl flex g++ gcc gdb git \
krb5-admin-server krb5-kdc krb5-user libkrb5-dev libsasl2-dev libsasl2-modules \
libsasl2-modules-gssapi-mit libssl-dev libtool lsb-release make ntp \
openjdk-8-jdk openssl patch pkg-config python rsync unzip vim-common
...多い(vim-commonとかほんとに必要なのか?)。
なので、リポジトリを変更したものの、それでも時間がかかる。
まずはKuduの読みを知ってもらうところから。
ということで、待ち時間ができたので、どうしたら皆さんにもっとKuduを知ってもらうにはいいのかを考えることにした。
言ってはなんだが、名前が地味である。少なくとも日本人的には。
Apache Kudoだったら一発で覚えてもらえたのに、と思わないでもない。
そもそも、Kuduとはどう読むのが正しいのか。
Kuduとは、アフリカに生息している哺乳綱ウシ目ウシ科ブッシュバック属に分類される偶蹄類(↓こんなの)らしい。
角がなかなか勇ましいではないか。
が、日本語の読みは、、、Wikipedia曰く、、、クーズーだそうだ。
- アパッチクーズー
- 俺、クーズーを3年間触るんだ。
- 俺、この戦いが終わったら、クーズーと結婚するんだ。
- このクーズー!!
誰だ、Kuduの日本語読みを決めた奴は。。日経とかの取材を受けたらかっこ悪いことになりそう。
待てよ。Wikipedia曰く
原語発音により近いクードゥー (kudu) との表記もみられる
とのこと。発音的にはクードゥーなのだ。
けっこうな数のプランド名にも使われているVoodoo(ブードゥー)っぽい。
ということならば、Kudist(Kudu使い)を、ブードゥー教(参考)にちなんで、クードゥー教信者と読んでもいいのかも。
クードゥー教ならば、名前くらいは覚えてもらえそう。
皆さん、Apache Kuduは、アパッチクードゥーと読んでくださいね。
...グローバルなチームの皆さんもクードゥーと発音してます、たぶん。
続く
そうこうするうちに、クードゥー=Kuduのビルドは終わりそうだ。
主にC++11で書かれているらしいKuduは、以下のような感じでmakeする...ので時間がかかる。
まぁ、メモリいっぱい積んでるマシンにdockerで持ってくる、あたりが良いのだろう。
git clone https://github.com/apache/kudu
cd kudu
thirdparty/build-if-necessary.sh
mkdir -p build/release
cd build/release
../../thirdparty/installed/common/bin/cmake \
-DCMAKE_BUILD_TYPE=release \
../..
make -j4
ところで、移管元となる基幹システム(メインフレーム)の方はCobolでガリガリに作り込まれているらしいのだが、こいつをどうしたものか...俺のクードゥー教徒としての戦いはここから始まる...(続く)。
俺、Cobolerたちとの戦いが終わったら、クードゥーと結婚するんだ...(違)