10
7

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?

More than 1 year has passed since last update.

今さら聞けないシリーズ - はじめてのApache Spark

Posted at

この記事は以下のウェビナーのダイジェスト版になります。より詳しくは以下のウェビナー(オンデマンド)を参照ください。

ウェビナー概要

ビッグデータのための分散処理フレームワークであるApache Sparkは今や大量ログデータ解析にとどまらず、Deep Learningを含む機械学習からSQLクエリエンジンとしてデータウェアハウス用途など様々な場面で活用されています。今回のセッションでは、Apache Sparkが誕生して現在に至るまでの流れ、何ができるのかの全体像・どこで使えるのかの具体例を実際のコードを交えて説明いたします。”Spark”は耳にしたことあるけど、どこから始めていいかわからない、何がそんなにいいのかわからない、などの疑問にお答えします。

対象

  • Sparkの名前だけは聞いたことがあり、詳細を知りたい方
  • OSS Sparkとの違いを知りたい方
  • OSS Pandasとの違いを知りたい方

TL;TD (目次)

Sparkをはじめるにあたって、よく聞かれる質問を通して、全体像をつかんでいきます。

  1. Sparkはどうやって生まれたのですか? 👉 Hadoop/Map Reduceの弱点補完で生まれた。
  2. Sparkは何に使えるのか? 👉 大量ログ解析、ELT、機械学習、ストリーミング、など多種多様。
  3. Map/Reduceで書かないといけないのか? 👉 Dataframeが使える。
  4. 開発するのに使える言語は? 👉 Python, Scala, Java, SQL, R。
  5. Pandasと何が違うか? 👉 Pandasはシングルコンピュート、Sparkは分散コンピュート。
  6. Spark/Databricksとデータウェアハウス(DWH)の関係? 👉 DWHとしても使われている。
  7. 今あるPythonコードを全て書き換えないといけないのか? 👉 いいえ、UDFでコード資産を活かせる。
  8. 機械学習でSparkはどう使えるのか? 👉 前処理、モデル学習、推論をSparkで高速化できる。
  9. Sparkはチューニングが必要か? 👉 大部分を自動でやってくれる。
  10. Sparkが接続できるデータソースは? 👉 JDBC、ファイルは直結。それ以外はコネクタで接続。
  11. Sparkはバッチ処理のみ? 👉 ストリーミング処理もカバーできる。
  12. Sparkの環境構築はそうすればよいのか? 👉 クラウドサービスがおすすめ。
  13. クラウドのSparkサービスを使うと何が嬉しいのか? 👉 スケーラビリティ・弾性をフルに享受。
  14. DatabricksのSparkを使うと何が嬉しいのか? 👉 最適化されたマネージドなSpark環境。
  15. Sparkのドキュメントはどこを見れば良いですか? 👉 オープンソースなので、パブリックに膨大なドキュメント。

Q1) Sparkはどうやって生まれたのですか?

image.png

Q2) ビッグデータ処理の文脈でよく出てくるけど、Sparkは何に使えるのか?

image.png

Q3) Hadoopの置き換えか? Map/Reduceで書かないといけないのか?

image.png

Q4) 開発するのに使える言語は?

image.png

Q5) Pandasと何が違うか?

image.png

image.png

Q6) 最近、Spark/Databricksがデータウェアハウス(DWH)の文脈で出てくるけど、どういうことですか?

image.png

Q7) Sparkを使うには、今あるPythonコードを全て書き換えないといけないのか?

image.png

Q8)機械学習でSparkはどう使えるのか?

image.png

Q9) Sparkはチューニングが必要か?

image.png

image.png

Q10) Sparkが接続できるデータソースは?

image.png

Q11) Sparkはバッチ処理のみ?

image.png

Q12) Sparkを試してみたい。環境構築はどうすればよいのか?

image.png

Q13) クラウドのSparkサービスを使うと何が嬉しいのか?

image.png

Q14) DatabricksのSparkを使うと何が嬉しいのか?

image.png

Q15) Sparkのドキュメントはどこを見れば良いですか?

image.png

まとめ

image.png

image.png

10
7
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
10
7

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?