7
1

More than 3 years have passed since last update.

1行で説明するビッグデータOSS

Last updated at Posted at 2020-05-31

はじめに

ビッグデータ関係の OSS を触ることになりそうなのですが、似ていて何が何だかよく分からないので、流行り(?)の1行で説明してみました。(クラウドサービスは対象外)

ビッグデータOSS

OSS 説明
Apache Apex DAG に処理を記述する YARN ベースのストリーミング、バッチ処理エンジン
Apache Beam バッチ、ストリーミングデータの並列処理パイプラインが作れるプログラミングモデル
Apache Cassandra Facebook が作った NoSQL 分散データベース管理システム
Apache Flink YARN 上で動くバッチ処理もできるリアルタイムストリーミング処理プラットフォーム
Apache Hadoop Java で作られた分散ファイルシステム HDFS と並列分散処理フレームワーク MapReduce が使えるフレームワーク
Apache Hbase Google BigTable のような Hadoop の分散ファイルシステム HDFS 上で動作するNosqlデータベース
Apache Hive SQLっぽい HiveQL が使える Hadoop 上で動くデータベース管理システム
Apache Hudi Uber が作った各種 DFS からビッグデータ分析データセットを取り込めるストレージ管理システム
Apache Ignite ビッグデータをインメモリで処理可能なスケーラブル、フォールトトレラント分散インメモリコンピューティングプラットフォーム
Apache Samza リアルタイムでストリーミングを処理できる分散非同期処理フレームワーク
Apache Storm 分散ほぼリアルタイム高速分析プラットフォーム
Apache Spark Scala、Java、Python でビッグデータのスケーラブルな分散処理を作れるフレームワーク
Apache Spark Streaming Spark を拡張しマイクロバッチによるスケーラブルなリアルタイムストリーミング処理が可能になるエンジン
Presto Facebook が開発した Hive と同じような大規模データ分析クエリ実行用分散型 SQL クエリエンジン
YARN Hadoop でアプリケーションの作成を簡単にするクラスタリソース管理フレームワーク

終わりに

まだフワッとしてます。
随時修正、不足があれば更新予定です。

参考(ありがとうございます)

7
1
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
7
1