はじめに
ビッグデータ関係の OSS を触ることになりそうなのですが、似ていて何が何だかよく分からないので、流行り(?)の1行で説明してみました。(クラウドサービスは対象外)
ビッグデータOSS
| OSS | 説明 |
|---|---|
| Apache Apex | DAG に処理を記述する YARN ベースのストリーミング、バッチ処理エンジン |
| Apache Beam | バッチ、ストリーミングデータの並列処理パイプラインが作れるプログラミングモデル |
| Apache Cassandra | Facebook が作った NoSQL 分散データベース管理システム |
| Apache Flink | YARN 上で動くバッチ処理もできるリアルタイムストリーミング処理プラットフォーム |
| Apache Hadoop | Java で作られた分散ファイルシステム HDFS と並列分散処理フレームワーク MapReduce が使えるフレームワーク |
| Apache Hbase | Google BigTable のような Hadoop の分散ファイルシステム HDFS 上で動作するNosqlデータベース |
| Apache Hive | SQLっぽい HiveQL が使える Hadoop 上で動くデータベース管理システム |
| Apache Hudi | Uber が作った各種 DFS からビッグデータ分析データセットを取り込めるストレージ管理システム |
| Apache Ignite | ビッグデータをインメモリで処理可能なスケーラブル、フォールトトレラント分散インメモリコンピューティングプラットフォーム |
| Apache Samza | リアルタイムでストリーミングを処理できる分散非同期処理フレームワーク |
| Apache Storm | 分散ほぼリアルタイム高速分析プラットフォーム |
| Apache Spark | Scala、Java、Python でビッグデータのスケーラブルな分散処理を作れるフレームワーク |
| Apache Spark Streaming | Spark を拡張しマイクロバッチによるスケーラブルなリアルタイムストリーミング処理が可能になるエンジン |
| Presto | Facebook が開発した Hive と同じような大規模データ分析クエリ実行用分散型 SQL クエリエンジン |
| YARN | Hadoop でアプリケーションの作成を簡単にするクラスタリソース管理フレームワーク |
終わりに
まだフワッとしてます。
随時修正、不足があれば更新予定です。
参考(ありがとうございます)