Apache Hadoop

Last updated at 2025-08-11Posted at 2025-07-21

Hadoopとは

Hadoopとは、大規模データの蓄積・分析を分散処理技術によって実現するオープンソースのミドルウェアです。

コンポーネント	主な役割	バッチ or リアルタイム
HDFS	分散ファイルシステム	両方に対応。（主にバッチ）中間データ処理に最適。
MapReduce	バッチ処理フレームワーク	バッチ処理のみ
Hive	SQLライクなバッチ分析	バッチ
Pig	スクリプトベースのデータフロー言語。チェックポイントや分岐を持つETLを簡潔に記述	バッチ
HBase	カラム型のNoSQLデータベース	リアルタイム

Hadoopクラスタのリソース管理、ジョブスケジューリングを担当します。