More than 3 years have passed since last update.

Databricksデータをインポートする方法

Last updated at 2022-06-24Posted at 2022-06-24

Databricksデータをインポートする方法

はじめに

本記事はDatabricksを初めて触る人向けに作成されたものです。ここではDatabricksにデータをインポートする方法を紹介します。

詳細は以下の内容となっています。

Databricksとは
- Databricksの用途
Databricks操作方法
- クラスター作成方法
- データのインポート方法

Databricksとは

Databricksとは今北欧で一番の使用率を誇り、世界的にも注目され採用されているクラウド型の統合データ分析基盤です。DatabricksはAI/機械学習に特化しており、ビッグデータを扱うことに長けています。そのため、データエンジニアリング、データサイエンス、機械学習、データ分析の領域に強みがあるのが特徴です。

つまりDatabricksとは、大量のデータを高速に、簡単に分析できる機能をもつサービスということができます。

そんなDatabricksの操作は直感的で、クリックベースを中心に簡単に操作することが可能です。まずは最初の一歩とも言えるデータのインポートについて紹介します。

Databricks操作方法

今回インポートするために使用するデータは下記のデータ（.CSV）になります。

Databricksではホーム画面からでも、コードを書くワークスペース上でもインポートすることが可能です。今回紹介するのはUpload Data UIを使用したデータのインポートです。

まずは前準備として cluster を作成する必要があります。clusterを作成していないと、ワークスペースにおいてクエリを実行することができないので注意が必要です。

クラスター作成方法

主な手順は以下になります。

ホーム画面左タブからComputeを選択しCreate clusterを選択
自分の必要な環境に応じて設定
Createを押して作成

まずは下記画像のように、ホーム画面左タブに現れるマーク（Compute）を選択します。
初めてclusterを作成する場合はこのような画面が出てくるので、Create a clusterを選択します。

作成から次の画面は以下のようになるので、自分の環境にあったものを選択します。

選択し終えた後は上部にあるCreate a clusterを選択し作成することが可能です。

クラスターを作成したら、次はデータをDatabricks上にアップロードします。

データのインポート方法

データをインポートする手順は以下になります。

ホーム画面のData importまたは左タブ（Data）を選択
アップロードするファイルを選択
ファイルのアップロード完了を確認し、テーブルを作成、データをインポート

まずは、ホーム画面のData Importまたは、左側のタブに下記の画像のようなマーク（Data）があるので選択します。

ホーム画面のData Importを選択すると、ファイルが自動的に開かれるので、インポートしたいデータを選択します。

ファイルを下記画像のようにアップロードできたことを確認したら、そのままCreate Table in Notebookを押すことで、インポートしたデータに対してNotebook上でクエリを走らせることができる画面に行きます。

下記画像の場所で、クラスターをNotebookに割り当てることができます。

いかがでしたでしょうか。本記事ではDatabricks内でデータをインポートする方法について紹介しました。次回はNotebookにインポートしたデータを表示させる方法について紹介します。お楽しみに！

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up