Databricksクイックスタートガイド

Last updated at 2024-01-12Posted at 2021-04-12

初めてDatabricksを利用される方向けに、マニュアルからピックアップしたコンテンツを翻訳したものになります。全文はDatabricks documentation | Databricks on AWSから参照できます。

こちらの内容は古いものとなっています。以下の日本語ドキュメントをご覧ください。

また、最新のはじめてのDatabricksをご覧ください。

注意

本出しました！

Databricksのコンセプト

Databricksとは何かを説明します。

Databricks環境セットアップ手順をご説明します。

AWSでフリートライアルを実施する際には、Databricksからのサポートを受けることをお勧めします。Databricks担当までお問い合わせください。

セットアップ完了後にこちらをご一読ください。

データ資産に対するガバナンスを強化し、データ管理に関する様々な機能を活用できる様にUnity Catalogを利用することをお勧めします。

データサイエンティスト、データエンジニア、データアナリストが利用するDatabricksワークスペースと利用方法をご説明します。

ユーザーとして一通りDatabricksの機能を体験したいという場合には、以下のチュートリアルを実施することをお勧めします。

Databricksでデータ分析やデータ加工を行う際に必ず必要になるクラスターについてご説明します。コストの考え方やベストプラクティスに関してはDatabricksクラスター設定のベストプラクティスをご一読ください。

Databricksの多くの作業を実施することになるノートブックの使い方をご説明します。

処理を定期実行するためにジョブを作成することができます。

Databricks上で、どのようにデータを読み込み、加工するのかをデータエンジニアリングにおける重要なコンポーネントとなるDelta Lakeを含めてご説明します。

MLflowを用いて、どのように機械学習モデルを管理するのかをご説明します。

Databricks SQLを活用することで、データレイク上の大量データに対する高速BIが可能となります。

コード管理、IDE連携などもサポートしています。

様々なセキュリティ要件に応えるための機能も提供しています。

Databricksのサポートです。

他の記事を以下のリンク先にまとめています。