More than 5 years have passed since last update.

GCPのBigdata周辺とApacheファミリーとの関連についてまとめ

Last updated at 2020-06-02Posted at 2019-09-05

はじめに

先日 Data Engineering Google Cloud Platform というセミナーを受講して、Apache 関連のプロダクト名が沢山出てきたのですが、それぞれの関係や役割が理解しきれなかったので、まとめてみました。

Cloud Pub/Sub
送信者と受信者を切り離す多対多の非同期メッセージングで、メッセージ指向ミドルウェアの柔軟性と信頼性をを提供。ストリーム分析パイプラインの基盤ともなる。
Apache Kafka
オープンソースの分散メッセージングシステムで、スケーラビリティに優れた分散メッセージキュー。

Cloud Dataproc
オープンソースのデータツール（Spark / Hadoop）を利用してバッチ処理、クエリ実行、ストリーミング、機械学習を大規模分散処理で実行するマネージドサービス。ComputeEngine インスタンス上で実行する仕組み（プリエンプティブVM可）オンプレのサービスをGCPにマイグレート色強い（インスタンスをマスター／ワーカーの台数を自身でインスタンスに設定）
Apache Hadoop
大規模データの分散処理を支えるオープンソースのソフトウェアフレームワーク。アプリケーションが数千ノードおよびペタバイト級のデータを処理することを可能としている。
Apache Spark
オープンソースのクラスタコンピューティングフレームワーク。暗黙のデータ並列性と耐故障性を備えたクラスタ全体をプログラミングできる。データをメモリに乗せて処理するから処理が高速（TB級までのデータに有効）。
Apache Hive
Hadoop 上で動作するソフトウェアで、SQLに似たデータ操作言語を用いてデータの集約・問い合わせ・分析を行う。パフォーマンスに優れる。
Apache Pig
Hadoop 上で動作するソフトウェアで、SQLに似た組み込み関数とユーザー定義関数を用いる。柔軟性があり複雑な処理も手軽に行える。

Cloud Dataflow
Apache Beam の実行環境。ストリーム（リアルタイム）モード／バッチ（履歴）モードでデータを変換（ETL)する、フルマネージドなデータ処理パイプラインサービス。
Cloud Dataprep
プログラミング知識が無くてもほとんどクリック操作のみでデータ加工を行ったり、データの品質チェックができる。ジョブ実行に Dataflow が使われる。
Apache Beam
ETL、バッチ、ストリーム処理などのデータ処理パイプラインを定義および実行するためのオープンソースの統合プログラミングモデル。

Cloud Composer
フルマネージドワークフローオーケストレーションサービス。Apache Airflow オープンソースプロジェクトを基に構築され、Python プログラミング言語を使用して運用される。
Apache Airflow
ワークフローエンジンツールの一種で、複数のタスクの実行順序を定義するワークフローの作成、実行のスケジューリング、監視などを行う。

BigQuery
サーバーレスでスケーラビリティに優れた企業向けのフルマネージドなデータウェアハウス。カラム型のマネージドストレージ。バッチやストリーミングのデータ収集機能、データ保存するストレージ機能、クエリーエンジンとしてのデータ分析機能をもつ。
Apache Avro
システム間でデータ交換を行うためのオープンソースなデータフォーマット。データがバイナリエンコードされ、軽量で柔軟。

（Apache ファミリーではないですが…）

Cloud Datalab
インタラクティブなデータ分析ツール。Datalab に Jupyter Notebook、TensorFlow などが含まれる。
Jupyter Notebook
Webブラウザ上でプログラムを作成・実行し、コード、メモ、実験結果をひとまとめに記録できるツール。
TensorFlow
TensorFlowとは、Googleが開発しオープンソースで公開している、機械学習に用いるためのソフトウェアライブラリ。

抜け漏れ、間違い等ありましたらコメントよろしくお願いします。