はじめに
Spark 開発者向けプラクティス集が欲しいと考え、Spark 開発のためのナレッジをコンテンツを整理しました。Deeply Deep Dive
というタイトルにて、Deep dive
として公開されている情報に満足したことはないので、より深さを求めていることを表現しました。コンテンツ作成を作成する際には、要求される知識量に対する絶望を感じること、いわゆる完全に理解した
の先へいざなうことを意識しました。その絶望の先には、おもしろさがあります。本開発ガイドシリーズがそれに気付くことへの一助になれば幸いです。
本ガイドシリーズを読む前に、次のトレーニングを受講、あるいは、トレーニング相当の知識を有することが望ましいです。開発ガイドシリーズでは、項目に対する細かな説明を実施していないため、ドキュメントやトレーニングコンテンツを適宜参照してください。Github にて公開しているコードを自分の環境で動作させることにより、理解を深めてください。
- Spark概要
- データエンジニアリング
- データ解析
絶望的完全開発ガイドシリーズの記事 ~ Spark 編 ~
下記表は、想定分野とそれに紐づく記事を示しています。関連する補足記事とレポジトリーもあります。
GroupID | 分野 | 記事 |
---|---|---|
T10 | Spark概要 | - PySpark 開発時に知っておくべき7つのテーマ |
T20 | データエンジニアリング | - PySpark によるデータエンジニアリング実践 |
T30 | データ品質チェック | - PySpark によるデータ品質に関する処理の開発実践 |
T40 | データサイエンス | 未着手(実装時期未定) |
T50 | メタデータデプロイ | - PySpark によるメタデータデプロイの実践 |
T60 | テスト | - ノートブック型 Spark サービス(Databricks)における 単体テストの実践 |
T70 | DevOps | - ノートブック型 Spark サービス(Databricks)における DevOps の実践 |
補足記事
- データサイエンス
- メタデータデプロイ
- DevOps
レポジトリー
Azure DevOps( CI/CD パイプライン実行環境)