1

More than 5 years have passed since last update.

１行で説明するビッグデータOSS

8

Last updated at 2020-06-02Posted at 2020-05-31

はじめに

ビッグデータ関係の OSS を触ることになりそうなのですが、似ていて何が何だかよく分からないので、流行り(？)の１行で説明してみました。（クラウドサービスは対象外）

ビッグデータOSS

OSS	説明
Apache Apex	DAG に処理を記述する YARN ベースのストリーミング、バッチ処理エンジン
Apache Beam	バッチ、ストリーミングデータの並列処理パイプラインが作れるプログラミングモデル
Apache Cassandra	Facebook が作った NoSQL 分散データベース管理システム
Apache Flink	YARN 上で動くバッチ処理もできるリアルタイムストリーミング処理プラットフォーム
Apache Hadoop	Java で作られた分散ファイルシステム HDFS と並列分散処理フレームワーク MapReduce が使えるフレームワーク
Apache Hbase	Google BigTable のような Hadoop の分散ファイルシステム HDFS 上で動作するNosqlデータベース
Apache Hive	SQLっぽい HiveQL が使える Hadoop 上で動くデータベース管理システム
Apache Hudi	Uber が作った各種 DFS からビッグデータ分析データセットを取り込めるストレージ管理システム
Apache Ignite	ビッグデータをインメモリで処理可能なスケーラブル、フォールトトレラント分散インメモリコンピューティングプラットフォーム
Apache Samza	リアルタイムでストリーミングを処理できる分散非同期処理フレームワーク
Apache Storm	分散ほぼリアルタイム高速分析プラットフォーム
Apache Spark	Scala、Java、Python でビッグデータのスケーラブルな分散処理を作れるフレームワーク
Apache Spark Streaming	Spark を拡張しマイクロバッチによるスケーラブルなリアルタイムストリーミング処理が可能になるエンジン
Presto	Facebook が開発した Hive と同じような大規模データ分析クエリ実行用分散型 SQL クエリエンジン
YARN	Hadoop でアプリケーションの作成を簡単にするクラスタリソース管理フレームワーク

終わりに

まだフワッとしてます。
随時修正、不足があれば更新予定です。

参考(ありがとうございます)

1

Register as a new user and use Qiita more conveniently

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up

1