Hadoopとは
Hadoopとは、大規模データの蓄積・分析を分散処理技術によって実現するオープンソースのミドルウェアです。
Hadoop の構成要素
| コンポーネント | 主な役割 | バッチ or リアルタイム |
|---|---|---|
| HDFS | 分散ファイルシステム | 両方に対応。(主にバッチ)中間データ処理に最適。 |
| MapReduce | バッチ処理フレームワーク | バッチ処理のみ |
| Hive | SQLライクなバッチ分析 | バッチ |
| Pig | スクリプトベースのデータフロー言語。チェックポイントや分岐を持つETLを簡潔に記述 | バッチ |
| HBase | カラム型のNoSQLデータベース | リアルタイム |
注意点
- Hadoop MapReduce の Python サポートは限定的(Hadoop Streaming を使う形)
YARN(Yet Another Resource Negotiator)
Hadoopクラスタのリソース管理、ジョブスケジューリングを担当します。