More than 1 year has passed since last update.

Spark 開発における絶望的完全開発ガイドシリーズ～ Deeply Deep Dive into Spark ～

Last updated at 2023-04-26Posted at 2022-10-05

はじめに

Spark 開発者向けプラクティス集が欲しいと考え、Spark 開発のためのナレッジをコンテンツを整理しました。Deeply Deep Dive というタイトルにて、Deep dive として公開されている情報に満足したことはないので、より深さを求めていることを表現しました。コンテンツ作成を作成する際には、要求される知識量に対する絶望を感じること、いわゆる完全に理解したの先へいざなうことを意識しました。その絶望の先には、おもしろさがあります。本開発ガイドシリーズがそれに気付くことへの一助になれば幸いです。

本ガイドシリーズを読む前に、次のトレーニングを受講、あるいは、トレーニング相当の知識を有することが望ましいです。開発ガイドシリーズでは、項目に対する細かな説明を実施していないため、ドキュメントやトレーニングコンテンツを適宜参照してください。Github にて公開しているコードを自分の環境で動作させることにより、理解を深めてください。

Spark概要
- 英語
  - apache-spark-programming-with-databricks · GitHub
- 日本語
  - databricks-academy/apache-spark-programming-with-databricks-japanese (github.com)
データエンジニアリング
- 英語
  - data-engineering-with-databricks · GitHub
  - advanced-data-engineering-with-databricks · GitHub
- 日本語
  - data-engineering-with-databricks-japanese · GitHub
データ解析
- 英語
  - scalable-machine-learning-with-apache-spark · GitHub
  - ml-in-production · GitHub
- 日本語
  - scalable-machine-learning-with-apache-spark-japanese · GitHub
  - ml-in-production-japanese · GitHub

絶望的完全開発ガイドシリーズの記事～ Spark 編～

下記表は、想定分野とそれに紐づく記事を示しています。関連する補足記事とレポジトリーもあります。

GroupID	分野	記事
T10	Spark概要	- PySpark 開発時に知っておくべき７つのテーマ
T20	データエンジニアリング	- PySpark によるデータエンジニアリング実践
T30	データ品質チェック	- PySpark によるデータ品質に関する処理の開発実践
T40	データサイエンス	未着手（実装時期未定）
T50	メタデータデプロイ	- PySpark によるメタデータデプロイの実践
T60	テスト	- ノートブック型 Spark サービス（Databricks）における単体テストの実践
T70	DevOps	- ノートブック型 Spark サービス（Databricks）における DevOps の実践

補足記事

レポジトリー

databricks_development_practices (github.com)

Azure DevOps( CI/CD パイプライン実行環境)

Azure Pipelines の公開環境

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up

Spark 開発における絶望的完全開発ガイドシリーズ ～ Deeply Deep Dive into Spark ～

はじめに

絶望的完全開発ガイドシリーズの記事 ～ Spark 編 ～

Spark 開発における絶望的完全開発ガイドシリーズ～ Deeply Deep Dive into Spark ～

絶望的完全開発ガイドシリーズの記事～ Spark 編～