はじめに
ビッグデータ関係の OSS を触ることになりそうなのですが、似ていて何が何だかよく分からないので、流行り(?)の1行で説明してみました。(クラウドサービスは対象外)
ビッグデータOSS
OSS | 説明 |
---|---|
Apache Apex | DAG に処理を記述する YARN ベースのストリーミング、バッチ処理エンジン |
Apache Beam | バッチ、ストリーミングデータの並列処理パイプラインが作れるプログラミングモデル |
Apache Cassandra | Facebook が作った NoSQL 分散データベース管理システム |
Apache Flink | YARN 上で動くバッチ処理もできるリアルタイムストリーミング処理プラットフォーム |
Apache Hadoop | Java で作られた分散ファイルシステム HDFS と並列分散処理フレームワーク MapReduce が使えるフレームワーク |
Apache Hbase | Google BigTable のような Hadoop の分散ファイルシステム HDFS 上で動作するNosqlデータベース |
Apache Hive | SQLっぽい HiveQL が使える Hadoop 上で動くデータベース管理システム |
Apache Hudi | Uber が作った各種 DFS からビッグデータ分析データセットを取り込めるストレージ管理システム |
Apache Ignite | ビッグデータをインメモリで処理可能なスケーラブル、フォールトトレラント分散インメモリコンピューティングプラットフォーム |
Apache Samza | リアルタイムでストリーミングを処理できる分散非同期処理フレームワーク |
Apache Storm | 分散ほぼリアルタイム高速分析プラットフォーム |
Apache Spark | Scala、Java、Python でビッグデータのスケーラブルな分散処理を作れるフレームワーク |
Apache Spark Streaming | Spark を拡張しマイクロバッチによるスケーラブルなリアルタイムストリーミング処理が可能になるエンジン |
Presto | Facebook が開発した Hive と同じような大規模データ分析クエリ実行用分散型 SQL クエリエンジン |
YARN | Hadoop でアプリケーションの作成を簡単にするクラスタリソース管理フレームワーク |
終わりに
まだフワッとしてます。
随時修正、不足があれば更新予定です。
参考(ありがとうございます)