Apache Spark とは
オンプレやクラウド上の大規模なデータ処理を、一括で処理できるものです。
sparkには3つの特徴があります。
- 速度
- 使いやすさ
- モジュラリティ
- 拡張性
これらを実現するために、様々なライブラリが提供されています。
速度
- 大規模なデータや並列処理などに対応する最適な選択ができる
- 並列処理が可能
- SQLによる最適な処理
使いやすさ
- シンプルで論理的なデータ構造を提供
- 慣れ親しんでいるプログラミング言語で実現することが出来る
モジュラリティ
モジュラリティ=どれだけ多くの組み合わせが実現できるか
- どのプログラミング言語でも同じ環境で実現できる
拡張性
- 他サービスのデータを読み込み操作をすることが出来る