Azureデータ分析入門 #1 【はじめに】

Azure

Last updated at 2019-10-04Posted at 2019-09-11

はじめに/対象者

Excelのつらみを日々体感している以下のような方に向けて、Azureファミリーの便利なサービスを何記事かに分けてご紹介します。

非技術者でデータを扱っている
データの集計や可視化に、Excelを使っている
とりあえず今やってる作業の効率化から進めたい
今より少し踏み込んだ分析ができるプラットフォームを探してる
Excelのつらみ
- vlookup関数やmatch関数を入れ子にしがち → フリーズ
- データ量増大 → フリーズ
- うっかりどこかの列を消去 → N/Aを量産
- バージョン管理(ローカルでやる場合) → ………

連載目次

Azureデータ分析入門 #1 【はじめに】 → 本記事はこちら
Azureデータ分析入門 #2 【ツール比較 Excel編】
Azureデータ分析入門 #3 【ツール比較 Azure Notebook編】
Azureデータ分析入門 #4 【ツール比較 Databricks編】
Azureデータ分析入門 #5 【Databricks → Power BI Desktop】
Azureデータ分析入門 #6 【CSVデータ → Power BI サービス】
Azureデータ分析入門 #7 【AutoML でタイタニック号の生存者予測】

流れ

Excelでの作業がどのくらいシンプルになるかを感じてもらうために、簡易的にクロス集計を行って可視化するまでを、下記3つのプラットフォームで同じようにやってみます。

Excel
Azure Notebooks (クラウド上のJupyter Notebook)
Databricks (Sparkベースのデータ分析プラットフォーム)

同じ土俵での比較がそもそもナンセンスですが、ともかく無理やりやってみます。
いわゆるデータ分析前段の前処理を一部かじって、可視化する、までの範囲を行うことになります。
データ分析フローで言う、以下のセグメントを行うイメージ。

それぞれの作業環境は以下の通りです。スペックの単純比較はできませんが、メモリ数見てもらうだけでも、ずば抜けてハイスペックなものを使うわけではないのがわかると思います。

-	スペック	費用	備考
Excel	Windows 10 CPU: Core i5-8250U RAM: 16GB	ライセンスフィー	使用したローカルマシンのスペック
Azure Notebook	CPU: unknown RAM: 4GB	無料	アップグレード可能だが今回は無償枠で。
Databricks	CPU: 4cores RAM: 8GB (0.5DBU)	約60円/時間	今回は最も安価なF4インスタンスを使用

そのあと、ちょっと踏み込んだ内容として、

DatabricksにPower BI(Microsoft謹製データ可視化ツール)を接続
タイタニック号の生存者分類 (Kaggleで有名なアレです) をAutoMLにやらせてみる

をやってみます

使用データ

お手元のデータを使ってもらうのが一番いいのですが、初めてPythonやSparkに触れる人にとっては少しハードルが高いはず。そこで、

テーブルの定義が明確
売上データがExcelで扱うことができるボリューム
データ自体のイメージしやすい

の条件を満たすデータとして、Kaggleで公開されている以下のデータセットを採用することにしました。

Brazilian E-Commerce Public Dataset by Olist

概要
- ブラジル市場最大のデパートのeコマースストアの公開データセット
- 2016-2018年までの10万件の注文データ
- 小売店はeコマースストアを通じて製品を販売、提携物流会社を用いて、顧客に直接商品を出荷
- 製品を受け取る or 配達予定日が来ると、顧客はレビュー調査を電子メールで受け取る
- 顧客は任意でレビューを書ける

Kaggleでの課題
- 自然言語処理 (レビュー内容に対して)
- 顧客クラスタリング (レビューの記載がない顧客の属性)
- 製品クラスタリング (不満をもちやすい製品カテゴリ)
- 売上予測
- 配送料金最適化

課題設定

今回はシンプルに以下のような立て付けで課題設定します。

あなたは Olist のマーケティング担当者です。

クリスマス商戦用に、配送料無料キャンペーンを検討中
- 単価と配送料の合計に占める配送料の割合が高いカテゴリは避けたい
- クリスマスなので、比較的単価が高いカテゴリを選定したい
- ある程度売上ボリュームのある3つのカテゴリに絞り込みたい

この課題を解決するために、以下のテーブルを用いて簡易分析し、結果を可視化する
- 売上明細データ
- カテゴリデータ
- 翻訳データ

(小売店がOlistに支払う手数料は製品単価に比例しているものとする)

テーブルスキーマ

まずこのデータセットに含まれる8つのテーブルの関係図を眺めてみましょう。
それぞれのテーブルはCSVデータで提供されます。
黄色が注文の製品データ、オレンジが注文の明細データです。この2テーブルがproduct_idで紐づいています。
今回はこれら2テーブルと翻訳テーブル、併せて3つのテーブルを使用します。