Gearpumpとは？

Intel発のOSSでリアルタイムなビッグデータストリーム処理エンジンです。
構造としてはDAG構成を持ったグラフをベースとし、それを実行するためのエンジンとなります。

類似の類似のプロダクトにはどのようなものがあるか？

具体的にGearpumpがビッグデータのプロダクト群の何に対応づけられるかというと、下記の図のとおりとなります。

レイヤとしては実際に処理を実行するためのエンジン部、その中でもストリーム処理を行うプロダクトになります。

ストリーム処理系のプロダクトとしては下記のようにプロダクトが公開されてきています。
実際にはActiveMQやKafkaはデータを流す基盤プロダクトなので微妙に立ち位置は違いますが、過去Yahoo S4、Storm、Spark Streaming等が公開されてきたものの流れを汲むプロダクトという位置づけとなりそうです。

どのような特徴を持っているか？

サイトを見るに、下記のような特徴を持っているようです。

高性能
低レイテンシ
メッセージの処理信頼性設定可能（At least once / exactly once）
高拡張性
動的DAG
Storm互換
Samoa互換
広範なIoT接続容易性
高レベル、低レベルの両方のAPIを提供

大部分はこういったストリーム処理基盤でよく謳われる項目なのですが、中でも目を引くのがexactly onceをストリーム処理基盤で可能という所です。
これまでStorm等ではexactly onceは実現できず、相応に実現したSpark Streamingは中身の実態はバッチ処理、という事情もあります。
ですので、モデルとして１メッセージずつ処理するリアルタイム／ストリーム処理基盤系でexactly onceを達成したプロダクトを私は知らなかったので、実際どういうものかは興味がわきました。

具体的にどのくらい性能が出るのか？

ページのトップを見る限り、4nodeのクラスタで100バイトのサイズを持ったメッセージを毎秒1100万件17msのレイテンシで処理したとあります。

尚、実際にどのような処理を行ったかというと、100バイトのランダムのメッセージを生成し、それを下流に流すというのみの、主にネットワーク帯域をどこまで活用可能かを確認するためのテストのようです。
処理量は少ないですが、メッセージの送信についてはStormのデフォルトであるShuffle Groupingがベースとなっているため、ネットワーク的な効率は悪い構成。
これが妥当かどうかはちょっと悩みどころですが、単にスループット、ネットワーク的な性能を試すという意味ではそれなりに有効なようには見えます。

デフォルト設定なのであれば、下記の構成となるようです。
- 階層は2階層（メッセージを生成するモジュール＞メッセージを下流に流すモジュール）
- メッセージを下流のどのモジュールに流すかはラウンドロビン（StormでのShuffleGrouping）

参照：
https://github.com/intel-hadoop/storm-benchmark/blob/master/src/main/java/storm/benchmark/benchmarks/SOL.java