DatabricksのNotebook上でインポートしたデータを表示する方法
はじめに
本記事はDatabricksを初めて触る人向けに作成されたものです。ここではDatabricksにデータをインポートする方法を紹介します。
詳細は以下の内容となっています。
- Databricks
- Notebookとは
- DatabricksのNotebook上でインポートしたデータを表示させる方法
- クエリの実行
- 文字化け修正
DatabricksのNotebookとは
DatabricksのNotebookとは、Databricks内で実行可能なセルやコマンドの集合体のことを指しています。
Databricks notebookを使用することで、複数人で同じnotebookをリアルタイムで編集・コメント等書き込むことも可能であり、同じnotebook内で複数言語を使用してデータ加工や分析を行うこともできるので非常に使用しやすい機能です。
詳しくは以下の記事に記載しています。
【AI入門】Databricksとは
Notebookについて
Notebook上でインポートしたデータを表示させる方法
Notebook上でインポートしたデータを表示させる手順としては以下が挙げられます。
- インポートしたデータからテーブルを作成
- クエリを実行
Databricks内でデータをインポートした後に、下記画像にあるようにCreate Table in Notebookを選択することで、自動的にコードが入力され、実行するだけで表示される仕組みになっています。
また同様に、Notebookを先に開き画面上部にあるFileを選択、Upload Dataを選択することでもデータをインポートし、コードをそのままコピーすることが可能です。
Databricksはコードだけではなく、クリックベースでも動かすことができる万能なサービスです。データをインポートする詳しい方法については以下の記事を参照してください。
インポートした状態になると、自動的にコードが書かれ、下記画像のようになるのでクエリを実行させることでファイルを表示することが可能です。
しかし、実際に実行してみると下記画像のように文字化けしてしまうことがあります。
文字化けの修正
日本語のデータが文字化けしてしまった場合は文字コードの変換が必要になります。その際は下記の一文を下記画像にように入れ、実行してください。
.option('charset', 'shift-jis')\
すると日本語の文字化けを修正することができ、無事にDatabricksのNotebook上でインポートしたデータを表示させることができました!
いかがでしたでしょうか。まだまだDatabricksには様々な便利な機能等がたくさんあります。本記事ではNotebookに表示させるまでを紹介しましたが、別記事ではデータテーブルの構造について等も紹介しています。
ぜひDatabricksを使用し、データ分析等行ってみてください。