はじめに
現在長期インターンをさせてもらっているSinkCapitalさんの方で、データ系の業務に携わることになりそうなのですが、それの準備期間として紹介していただいた本をまとめていきたいと思います。
「BIツール」活用 超入門 Google Data Portalではじめるデータ集計・分析・可視化
この本では、BIツールの使い方と、それの前提となる分析や業務、環境に関する知識を学べるらしい。
入門書にもおすすめらしい。
1-1 BIツールの基本
BIはビジネスインテリジェンス、つまり、ビジネスの意思決定に関わる情報という意味。BIツールとは企業が持つさまざまなデータを分析・見える化して、経営や業務に役立てるソフトウェアのこと。
デジタル化が進んできたり、ユーザーの行動がスマートフォンやWebで記録されたり、センサーの発展に伴い大量のデータを確保できるようになったことで、BIツールでのデータ分析ニーズが高まってきている。
この本ではBIツールの操作だけでなく、データ分析の基本的な事柄も学べるようになっている。
Google Data Portalを使って進めていく。
第1章では、データ分析のプロセスに入門し、BIツールの基本的な機能を学ぶことを目的としている。
この章を学ぶことで
・個人がデータを操作することで情報を引き出し、共有する
・複数人でデータを共有し、情報を引き出し、共有する
これらのことができるようになるらしい。
最初はここからデータをダウンロードして、Google driveで色々やって終わり。
1-2 データの読み込みと集約
この章では、分析者自身のためのデータ分析を行う。
まず、BIツールに読み込むデータとして、表形式データについて学ぶ。次に、これらのデータを取り扱う手段として、集約について学ぶ。
表形式は分析においてデータが扱いやすくなり、形式を守ることで、効率的に共同で作業ができる。
集約は各レコードから、全体を掴む数値を作るための作業である。
データの読みこみのため、まずデータを可視化して配置していく、空のダッシュボードを作成する。
データソースで、テイクアウトアプリ注文のデータシートを選択すると、キャンバス画面に遷移される。
ダッシュボード作成画面に表が表示されたので、実際に集約してみる。まずは数え上げを作成してみる。ディメンションの注文IDを削除するとこんな感じに。
たくさんあった行が一つになった。
1-3 集計、グラフによる可視化
集計や可視化とは何か
前節では、記録されたデータの確認と、全体把握のための集約を行なった。ここからはより分析のイメージに近い、集計と可視化を学んでいく。
集計を行う理由は2つあり
・分析の目的にあった大きさの数値を手に入れるため
・グループの間で数値を比較するため
可視化はデータをグラフで表現することで、多くのデータや集約した結果を1つにまとめることや、感覚的に理解することができる。
ハンズオン
集計表を作成し、折線グラフを作っていく。
ディメンションに注文日を設定する。このディメンションは、集計のグループに使われるデータを表している。指標に設定されたデータが集計対象となる。
折線グラフも本にある通りに作ってみるとこんな感じに。
ステップアップ
分析をうまく進める方法
集計や可視化はコンピュータのおかげでとても簡単になった。簡単になったが故に、無駄な分析も行われがちになっている。それを避けるために、目的を明確にし、適切な手段を選ぶ必要がある。
目的を明確にするコツとして「質問すること」が挙げられる。加えて、適切な手段を選ぶ方法の1つとして、「グラフを適切に選ぶ」ことが挙げられる。
前者は、知りたいことを明確にするために必要。作業が進んでいく中で、新たな質問が出てくるが、適宜整理していくことが重要。
後者は、質問を適切に答えてくれるグラフを選択することが重要。
質問とグラフのパターンとして
・折線グラフ:時間ごとにどう数値が変わるか?
・棒グラフと平均線:数値の大きさがどのくらい違うか?
・円グラフ、帯グラフ:内訳で大きいものがどれか?
が挙げられる。
集計に関する用語
・ディメンション(アトリビュート、集計軸) 集計するグループとなるデータのこと
・指標(メジャー、メトリクス) 集計した数
メジャーとディメンションをまとめてキューブと呼ぶことがある。
1-4 関係性の分析
この節では「役に立つ情報」を取り出す方法を学ぶ。役に立つ情報として、データから関係性を見出す分析を行う。
ハンズオン
関係性を見つける場合、特に重要なのは「グラフにする」だけでなく、関係性を探すことである。
以下の様にグラフを設定する・
グラフの種類 | 指標 | ディメンション | フィルター設定 |
---|---|---|---|
棒グラフ | 金額(平均) | 時刻 | なし |
棒グラフ | 金額(平均) | 曜日 | なし |
ピポットテーブル | Record Count | 週、曜日 | なし |
帯グラフ | Record Count | 週、曜日 | なし |
散布図 | 注文点数、金額 | ユーザーid | なし |
グループの差があることから、関係性を見つけるために棒グラフを作成して、その関係性を探していく。
1.グラフを追加し、比較可能な棒グラフを作成
1つ目の棒グラフを作成していく。ディメンションを時刻、指標を金額にし、集計方法を平均に設定する。デフォルトだと、横軸が金額で並んでしまうので、これも時刻に変更。
2.他のディメンションでも同様にグラフを作成
上で作成したグラフをコピーして、ディメンションを曜日にする。
この分析では、曜日や時間での目立った傾向が見られないことがわかった。一般的な飲食店に発生する規則は見られないため、異なったアプローチが必要であることがこの分析で明らかになった。
クロス集計と帯グラフで比率の差を見つける
続いて、構成比の関係を見ていく。平均の比較を行うために棒グラフを使っていたが、属性ごとに構成比を比較したい場合はクロス集計や帯グラフを使うと見やすくなる。
1.グラフを追加し、クロス集計を作成する
クロス集計をピポットテーブルで作成。クロス集計は2つのディメンションで集計し、それぞれに該当するっデータが何件あるかを計算できる。
行のディメンションを「週」、列のディメンションを「曜日」にする。ディメンションに2つのカラムが選択されるのが特徴。
2.クロス集計を帯グラフに変更する
直感的にわかる帯グラフの形に変更。グラフのデザインで「棒グラフ」を選択。
元のデータの性質上、その曜日が存在してない場合があるため、今回の分析は適切でない。この状態で比較をしても何も言うことができない。
散布図で関係性を見てみる
散布図は集計した単位が点として表示され、その並び方から関係性を確認していく。
1.グラフを追加し、散布図を作成
追加の手順は今までと同じ。ディメンションをユーザーid、指標Xを注文点数、指標Yを金額と設定する。
2.グラフを眺め、差があるか確認
こんな感じに。高校数学でやったことあるやつ。
相関だったり、外れ値がないかの確認をする。
ステップアップ
規則を見つけてビジネスに役立てる場合、いくつか注意が必要
・差がある、関係があるというのをデータから断言するのは難しい
例外みたいなのが出てきて、それが取り出される可能性もあるので、統計学の考えを分析に取り入れていく必要がある。
・関係の方向性を今あるデータからは断定するのは難しい
一般的な知識から方向性を考慮できない場合、方向性を考えるのは難しくなる。
1-5 結果を共有するためのデザイン
他人に結果を共有する場面を取り扱う。その際に気を付けるべきポイントについて学んでいく。
分析結果を人に伝える際に気をつけるべきこと
多くの分析者は自分のかけた時間ゆえに、報告相手の視点を忘れがちになる。
失敗の原因となるのは以下の2点。
1.相手は自分ほど分析結果を理解するための情報を持っていない可能性が高い
2.相手は自分ほど分析結果に興味がないことが多い
受け手は自分が時間をかけたことなど何も知らない。分析者ほどの熱意や知識を持って、分析結果に向き合うことはない。
こういう状態を避けるために、分析の初期からコミュニケーションを取ることや、結果の共有時にプレゼンテーションを上手くやるなど工夫する。
見せる前のチェックリスト
・ダッシュボード内に、定義が不明なものがないか
・見る順番や重要度がわかりやすくなっているか
・うまく表示されていないものや、雑に感じる部分がないか
ハンズオン
上記のチェックリストに対応するための機能を実際に使っていく。
1つ目の定義が不明な場合は、単純に説明や画像を追加していくことで対応できる。
2つ目の見る順番や重要度に関してはクラスやオブジェクトの配置や大きさの変更で対応できる。
3つ目の雑な配置を防ぐのは、機能を活用することで作業時間短縮できる。
複数選択して、右クリックをしたら、いろんな機能が使える。
1-6 結果の展開、共有
この節では、複数人でのデータ活用時に使用する配信、共有機能について学習する。
配信、共有機能をなぜ使うのか
データや分析した結果を組織で広げるために配信、共有機能を使う。
また、データに基づいて行動する組織を「データトリブン」や「データインフォームド」な組織と呼ぶこともある。
このような組織を実現するために、組織のメンバーが適切なタイミングで判断んい必要な情報にアクセスできることが重要となる。また、このような判断が継続して行われる必要がある。
BIツールの配信、共有機能はここらへんをサポートできる。
どのような配信、共有機能があるか
BIツールの一般的な配信機能としては
1.ダッシュボードや集計後のデータをメール、チャットで定期的に送信する
2.ダッシュボードにWebブラウザやモバイルアプリでアクセスできる
####ハンズオン
実際にData Portalで配信、共有機能を試していく。
共有機能としては
・URLを共有し、Webブラウザでアクセス可能にする機能
・Webページに埋め込むhtmlタグの作成機能
・メールでダッシュボードをPDF化して送信する機能
ここをいじくれば色々できる。
1-7 ダッシュボードのインタラクティブ機能
この章では作ったダッシュボードを閲覧者が動的に変更できるようにする。
インタラクティブの利便性
インタラクティブにするメリット
1.複数のニーズに1つのダッシュボードで答えられる
2.複数のダッシュボードに共通のロジックを使える
3.新しい作成なしに、即座に情報にアクセスできる
ハンズオン
実際に試していく。Data Portalでは主に2つの機能でインタラクティブを実装する。
1.コントロール機能
コントロールオブジェクトを追加し、表示を切り替えてみる。
これで表示モードにしないと、どっちの機能も使えないらしい。
2.インタラクション機能
こちらでも同様の機能を。
手順としてはトリガーとなるグラフを作成してから、interactionsを設定する。
これが
店舗idを指定するとこんな感じに。面白いですね。
インタラクティブに使う際は、作成者と利用者の関係を考慮する必要が出てくる。
##感想
第1章が終わりました。入門書ということもあり、特に知識がない状態でもスラスラ読めますね。手を動かしながら学ぶことができるので、ストレスなく学習を進められてます!