はじめに
最近Sparkについて勉強していて、その際にお世話になったリンクをまとめました。
まだまだ勉強中の身なので、「この記事・ブログ・動画もわかりやすいよ。」というものがございましたら、コメントにて教えていただけるとありがたいです。
Qiitaの記事
Apache Spark で分散処理入門
https://qiita.com/Hiroki11x/items/4f5129094da4c91955bc
- Apache Sparkとは
- RDDの仕組み
- ライブラリについて
- 実際に動かしてみる
Spark DataframeのSample Code集
https://qiita.com/taka4sato/items/4ab2cf9e941599f1c0ca
Pythonを用いたDataFrameの作成から操作までがまとまっています。
- DataFrameの作成
- SQL文でQuery
- filter, selectで条件付き検索
- groupByで集計
- DataFrameの操作
公式ドキュメント
Apache Spark Documentation
https://spark.apache.org/documentation.html
今は全然読めていませんが、これから先はドキュメントを読んでいくことになるんだろうなと思っています。
日本語版ドキュメント
http://mogile.web.fc2.com/spark/index.html
一部ページは404になっています。
YouTube動画
「Spark」で検索して、いくつか出てきた動画の中で参考にした動画です。
字幕機能が本当にありがたい。また、この字幕ですがドラッグで移動できる(今まで知らなかった)ので、動画に応じて邪魔にならない場所に移動させて視聴できます。
Learning Journal
字幕があって説明も比較的ゆっくりなので、英語が苦手な私でもどうにか全て視聴することができました。(全部理解したとはとても言えませんが)
Apache Spark - 01 - Setup your environment
https://www.youtube.com/watch?v=AYZCpxYVxH4
- LinuxマシンへApache Sparkをダウンロード・インストール
- Spark Shell(Scala)からSparkへのアクセス
- PySparkからSparkへのアクセス
- Jupyter NoteBookのインストール
- Apache Toreeのインストール・設定
- Jupyter Notebook(Scala, Python, Spark SQL)からSparkにアクセス
Apache Spark - 02 - Introduction
https://www.youtube.com/watch?v=_piYXmAXHW8
- What is Apache Spark?
- Apache Sparkエコシステムについて
- Why Spark?
Apache Spark - 03 - Architecture - Part 1
https://www.youtube.com/watch?v=vJ0eUZxF80s
- クラスター上でSparkはプログラムをどのように実行するか?
- Driver
- Executors
- Who executes Where?
- Client Mode
- Cluster Mode
- SparkはDriverとExecutorsのリソースをどのように取得するか?
- Client Mode
- Cluster Mode
- Local Mode
- デモ
Apache Spark - 04 - Architecture - Part 2
https://www.youtube.com/watch?v=fyTiJLKEzME
- RDDについて
- Transformations
- Actions
Spark Tutorial - Introduction to Dataframes
https://www.youtube.com/watch?v=REg1ACa47Q8
- Apache Spark APIドキュメントについて
- Scala, PythonでのDataFrameの基本的な操作について
Spark Tutorials - Spark Dataframe | Deep dive
https://www.youtube.com/watch?v=PUSuU2OrfCc
- DataFrame Transformations
- Typed and Untyped Transformations
- Example Transformations(select, groupBy, agg)
- Spark UDF
- Spark Execution plans and the Optimizations
Spark Tutorial - SQL over dataframes
https://www.youtube.com/watch?v=1IoMlAMOPzM
- Spark DataFrame Schema
- Spark SQL over Spark DataFrame
その他Youtube動画
Intro to Apache Spark for Java and Scala Developers - Ted Malaska (Cloudera)
https://www.youtube.com/watch?v=x8xXXqvhZq8
- OSCON 2016のセッションの一つ
- 内容
- Learning to Code
- Distributed Programing
- RDD
- DAG
- Flume Java
- Long Lived Applications
- Managing Parallelism