0
0

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?

Apache Hadoop

0
Last updated at Posted at 2025-07-21

Hadoopとは

Hadoopとは、大規模データの蓄積・分析を分散処理技術によって実現するオープンソースのミドルウェアです。

Hadoop の構成要素

コンポーネント 主な役割 バッチ or リアルタイム
HDFS 分散ファイルシステム 両方に対応。(主にバッチ)中間データ処理に最適。
MapReduce バッチ処理フレームワーク バッチ処理のみ
Hive SQLライクなバッチ分析 バッチ
Pig スクリプトベースのデータフロー言語。チェックポイントや分岐を持つETLを簡潔に記述 バッチ
HBase カラム型のNoSQLデータベース リアルタイム

注意点

  • Hadoop MapReduce の Python サポートは限定的(Hadoop Streaming を使う形)

YARN(Yet Another Resource Negotiator)

Hadoopクラスタのリソース管理、ジョブスケジューリングを担当します。

Sparkとの関係

SparkとHadoopは比較して語られることが多いですが、Sparkが登場して世代交代を迫られたのはMapReduceの部分だけです。
実務では、「データはHDFS(Hadoopの倉庫)に置いたまま、計算だけSpark(足の速い作業員)にやらせる」という構成が非常に多いです。
また、MapReduceも完全に消えたわけではありません。

ただし2026年3月現在の最近では、さらに進化して「Hadoopの倉庫(HDFS)」すら使わないケースも増えています。

  • ストレージ: HDFSの代わりに AWS S3 などのクラウドストレージを使う

  • リソース管理: YARNの代わりに Kubernetesを使う

こうなると「HadoopなしのSpark単体運用」となっていきます。

0
0
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
0
0

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?