初めてDatabricksを利用される方向けに、マニュアルからピックアップしたコンテンツを翻訳したものになります。全文はDatabricks documentation | Databricks on AWSから参照できます。
こちらの内容は古いものとなっています。以下の日本語ドキュメントをご覧ください。
Databricksドキュメント | Databricks on AWS
また、最新のはじめてのDatabricksをご覧ください。
注意
- 本書は抄訳であり内容の正確性を保証するものではありません。正確な内容に関しては英語ドキュメントを参照ください。
- こちらは翻訳時点の内容となります。可能な限りアップデートしていきますが、最新の状態でない箇所がある可能性をご了承ください。
- AWSでの利用を想定したものとなっています。
- 誤記、翻訳要望等ございましたら、コメントでご指摘いただけると幸いです。
Databricksのコンセプト
Databricksとは何かを説明します。
- Databricksレイクハウスとは何か?
- レイクハウスとは何?
- Databricksのコンセプト
- Databricksに対するFAQ
- データブリックスのレイクハウスプラットフォーム
- Databricksのアーキテクチャ
- Databricksにおけるデータサイエンスコラボレーション
- Databricksデータサイエンス&エンジニアリングのコンセプト
Databricks環境のセットアップ(管理者向け)
Databricks環境セットアップ手順をご説明します。
AWSでフリートライアルを実施する際には、Databricksからのサポートを受けることをお勧めします。Databricks担当までお問い合わせください。
- Databricksフリートライアルへのサインアップ
- Databricksアカウントのセットアップとワークスペースの作成
- Databricksアカウントのセットアップとワークスペースの作成(実践編)
- Databricksにおける顧客管理VPC
- Databricksにおける顧客管理VPC(実践編)
- Databricksワークスペース(E2)作成時のトラブルシューティング
セットアップ完了後にこちらをご一読ください。
- DatabricksのUIが日本語対応しました!
- 管理者向けDatabricksスタートガイド
- Databricks管理者向け機能のご紹介
- Databricksワークスペースにユーザーを追加する
- Databricksユーザーを招待して利用開始するまでの手順
- Databricksにおけるユーザー管理
- Databricksにおけるワークスペースオブジェクトのアクセスコントロール
Unity Catalogのセットアップ(管理者向け)
データ資産に対するガバナンスを強化し、データ管理に関する様々な機能を活用できる様にUnity Catalogを利用することをお勧めします。
- DatabricksのUnity Catalogとは?
- AWSでDatabricks Unity Catalogをセットアップする
- Unity Catalogを使い始める
- Unity Catalogのウォークスルー
- テーブルとビューをUnity Catalogにアップグレードする
ユーザー向けスタートガイド
データサイエンティスト、データエンジニア、データアナリストが利用するDatabricksワークスペースと利用方法をご説明します。
ユーザーとして一通りDatabricksの機能を体験したいという場合には、以下のチュートリアルを実施することをお勧めします。
- Databricksワークスペースの画面のご案内
- ユーザー向けDatabricksスタートガイド
- Databricksワークスペースのオブジェクトを操作する
- Databricksのファイルシステムを可能な限りわかりやすく解説
- Databricksのデータベースを可能な限りわかりやすく解説
- SparkにおけるPandas API
- Databricks Apache Sparkクイックスタート
- Databricks Apache Sparkデータフレームチュートリアル
- シングルノードのワークロードをDatabricksに移行する際の6つの疑問
- Delta Lakeへのワークロード移行ガイド
Databricksクラスター
Databricksでデータ分析やデータ加工を行う際に必ず必要になるクラスターについてご説明します。コストの考え方やベストプラクティスに関してはDatabricksクラスター設定のベストプラクティスをご一読ください。
- Databricksクラスター
- Databricksにおけるクラスター作成
- Databricksクラスターの設定
- Databricksクラスター設定のベストプラクティス
- Databricksにおけるクラスター管理
- DatabricksのPools
- Databricksベストプラクティス:プール
Databricksノートブック
Databricksの多くの作業を実施することになるノートブックの使い方をご説明します。
- Databricksノートブックのご紹介
- Databricksノートブックを管理する
- Databricksノートブックでコードを開発する
- Databricksにおけるデータの可視化
- Databricksにおけるライブラリ管理
- DatabricksでカスタムPythonライブラリを利用する方法
- Databricksにおけるノートブックワークフロー
- DatabricksノートブックにおけるHTML、D3、SVGの活用
- Databricksユーティリティ
Databricksのジョブ
処理を定期実行するためにジョブを作成することができます。
データエンジニアリングに関わる作業
Databricks上で、どのようにデータを読み込み、加工するのかをデータエンジニアリングにおける重要なコンポーネントとなるDelta Lakeを含めてご説明します。
- データエンジニアとしてDatabricksを使い始める
- Databricksで初めてのETLワークロードを実行する
- ローカルマシンからDatabricksにデータをアップロードして読み込む
- Databricksレイクハウスにおけるデータオブジェクト
- Databricksファイルシステム(DBFS)
- Databricksのサンプルデータ
- Databricksにおけるインスタンスプロファイルを用いたS3バケットへのセキュアなアクセス
- Databricksにおけるデータのインポート、読み込み、変更
- Databricksにおける画像の取り扱い
- 画像アプリケーションに対するDatabricksリファレンスソリューション
- Delta Lakeクイックスタートガイド
- Delta Live Tablesクイックスタート
- Delta Live Tablesユーザーガイド
機械学習に関わる作業
MLflowを用いて、どのように機械学習モデルを管理するのかをご説明します。
- データサイエンティストとしてDatabricksを使い始める
- 機械学習エンジニアとしてDatabricksを使い始める
- Databricks機械学習ガイド
- Databricksで機械学習を始めてみる
- Databricks機械学習ランタイム
- PythonによるDatabricks MLflowクイックスタートガイド
- Databricksにおける機械学習トレーニングのトラッキング
- Databricks Apache Spark機械学習チュートリアル
- DatabricksのMLflowを用いたモデルのログ、ロード、登録、デプロイ
- Databricks AutoMLのマニュアル
- Databricks Feature Storeのマニュアル
BIに関わる作業
Databricks SQLを活用することで、データレイク上の大量データに対する高速BIが可能となります。
- Databricks SQLのコンセプト
- Databricks SQLクイックスタート:サンプルダッシュボードギャラリーからダッシュボードをインポートしてDatabricks SQLを学ぶ
- Databricks SQLの管理者のタスクを完了する
- Databricks SQL : 管理者向けクイックスタート
- Databricks SQL : ユーザー向けクイックスタート
ツール連携
コード管理、IDE連携などもサポートしています。
Databricksにおけるセキュリティ
様々なセキュリティ要件に応えるための機能も提供しています。
- Databricks E2バージョンプラットフォームのエンタープライズセキュリティ
- DatabricksにおけるAWS PrivateLinkの有効化
- Databricksベストプラクティス:データガバナンス
- Databricksのテーブルアクセスコントロール
- Databricksクラスターポリシーを特定のユーザーにのみ適用する手順
- Databricksにおけるシークレットの管理
サポート
Databricksのサポートです。
学習コンテンツ
その他のDatabricksに関する記事
他の記事を以下のリンク先にまとめています。