Apache Sparkの裏側の仕組み

Posted at 2025-04-20

この記事は

この記事は、Sparkを使用している、または知識はあるものの、内部で起きていることについてはよく理解していない方向けの解説です。

Sparkの内部構造や処理の仕組みを理解することで、以下のようなメリットがある。
データエンジニア、サイエンティストの人は必見である。

パフォーマンスの最適化
- パーティション数の適切な設定やデータの分散方法を調整し、処理効率を向上できる
- シャッフル操作のコストを理解し、不要なシャッフルを減らすことでジョブの高速化が可能
リソース管理の改善
- Executorの数やメモリ割り当てを適切に設定するヒントになるあ
- クラスタリソースの有効活用とコスト削減につながる
デバッグとトラブルシューティングの容易化
- エラーが発生した際に、どのステージやタスクで問題が起きているかを特定しやすくなる
- Sparkのログやウェブインターフェースの情報を正確に解釈できるようになる
効率的なアプリケーション設計
- データの依存関係や処理フローを意識した効率的なSparkアプリケーションの設計が可能になる
- 適切なAPIやコンポーネントの選択ができるようになる
チューニングスキルの向上
- メモリ使用量、データのスキュー（偏り）、ジョブのボトルネックなどを適切に分析し対処できるようになる

Apache Sparkはビッグデータ処理のためのオープンソースの分散処理フレームワークである。
下記のような特徴とコンポーネントから構成される。

ドライバー、エグゼキューター、ワーカーから構成されています。

コンポーネント	役割
Driver（ドライバー）	- Notebook（UI）やジョブの「司令塔」 - Spark セッションを起動し、ジョブをステージ単位→タスク単位に分割
Executor／Worker（エグゼキューター）	- ドライバーから送られたタスクを実際に実行 - データの読み込み・変換・書き出しを並列処理

イメージ: ドライバーを指揮者、Executor を演奏者（オーケストラの各セクション）、スロットを個々の楽器に例えるとわかりやすい。

パーティション
- データを分割した最小単位
- RDDの基本的な処理単位となる
ジョブ → ステージ → タスク
- ドライバーが「ジョブ」を複数の「ステージ」に分け、
- さらに各ステージを「タスク」に細分化
- DAG (Directed Acyclic Graph) に基づいて処理の依存関係が管理される
スロット（コア単位の作業単位）
- 各 Executor 上にコア数だけスロットがあり、
- ドライバーは空いているスロットにタスクを振り分ける
二重の並列化
- ノード並列（Executor）: 複数ノードで同時に実行
- コア並列（スロット）: 各ノード内の複数コアで並列実行

私自身データサイエンティストとして普段Sparkを使っているのですが、分散処理スゲー、ハエーというレベルで使っており、チューニングの部分はデータエンジニアに都度質問していました。
今回の記事を踏まえて少し解像度を上げた質問をしていきたいと思ってます。