LoginSignup
1
1

Oracle Analytics Cloud:箱ひげ図でデータのパターンを見て傾向を把握する

Posted at

はじめに

データ・ビジュアライゼーションでは、従来のレポーティングとは違って、個々の値に着目するよりもデータのパターンを見て何らかの洞察を得るということが主目的となります。
今回は、箱ひげ図(ボックス・プロット)を使って、データのパターンを探ってみたいと思います。

もちろん、発見したパターンをより深く理解するためにOracle Analytics Cloud(OAC)では、レポーティング機能も提供しています。

使用するデータ

観光庁の「旅行・観光消費動向調査」より、「2018年1~12月期」の集計表(確報)を加工して使用しました。
https://www.mlit.go.jp/kankocho/siryou/toukei/shouhidoukou.html

元データがExcelファイルだったので、加工後のデータもExcelファイルです。
加工して作成したのは、主目的地(訪問先)別、目的別(観光や出張等)、宿泊の有無別の消費金額の合計額です。

データセットの作成

作成したExcelファイルをOACのデータセットとして取り込みました。
image.png

ワークブックで分析開始

データセットをクリックして、新規のワークブックを作成します。
image.png

箱ひげ図の作成

属性項目とメジャー項目をひとつづつコントロールキーを押しながら選択し、右クリックします。
「ビジュアライゼーションの選択」をクリックします。
image.png
「横ボックス・プロット」をクリックします。
image.png
「主目的都道府県」を「詳細(ボックス)」にドラッグ&ドロップします。
image.png
image.png
訪問目的別の箱ひげ図ができました。プロットされているのは、訪問先の都道府県です。
「観光・レクリエーション」を例に説明します。
image.png
マウスポインタをボックスにポイントすると、数値がポップアップします。
Q1が25パーセンタイルで、第一四分位数となります。
Q2は50パーセンタイルで、第二四分位数であり中央値です。
Q3は75パーセンタイルで、第三四分位数です。
Q1からQ3の間を四分位範囲といい、全体の50%が含まれます。
低となっている数値が、箱から伸びているひげの下限値です(この図では下限のひげが最小値と重なって見えづらくなっています)。
同様に、高となっている数値が、箱ひげの上限値です。
ひげから上下に飛び出ているデータは、外れ値です。
OACの箱ひげ図では、ひげの長さは四分位範囲の1.5倍となっています。

もう一度、箱ひげ図を見てみる

image.png
「観光・レクリエーション」に比べて、目的が「出張・業務」や「帰省・知人訪問等」の場合は、ボックスのサイズが小さくなっています。
より小さな範囲に全体の50%が収まっていることになり、訪問先による消費金額の差はあまりなさそうです。
目的に関わらず、常に最大値は東京都でした。北海道も常に2位か3位となっていますが、これは交通費のせいだと思われます。
image.png
次に、宿泊の有無によりどの程度傾向が変わるのかを見てみます。
image.png
やはり、日帰り旅行の場合、かなり消費金額が落ち込むのがわかります。
image.png
ポイントの表示をオフにすることで、外れ値を非表示にしてすっきりさせることもできます。
image.png

1
1
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
1
1