はじめに
データ・ビジュアライゼーションでは、従来のレポーティングとは違って、個々の値に着目するよりもデータのパターンを見て何らかの洞察を得るということが主目的となります。
今回は、箱ひげ図(ボックス・プロット)を使って、データのパターンを探ってみたいと思います。
もちろん、発見したパターンをより深く理解するためにOracle Analytics Cloud(OAC)では、レポーティング機能も提供しています。
使用するデータ
観光庁の「旅行・観光消費動向調査」より、「2018年1~12月期」の集計表(確報)を加工して使用しました。
https://www.mlit.go.jp/kankocho/siryou/toukei/shouhidoukou.html
元データがExcelファイルだったので、加工後のデータもExcelファイルです。
加工して作成したのは、主目的地(訪問先)別、目的別(観光や出張等)、宿泊の有無別の消費金額の合計額です。
データセットの作成
作成したExcelファイルをOACのデータセットとして取り込みました。
ワークブックで分析開始
データセットをクリックして、新規のワークブックを作成します。
箱ひげ図の作成
属性項目とメジャー項目をひとつづつコントロールキーを押しながら選択し、右クリックします。
「ビジュアライゼーションの選択」をクリックします。
「横ボックス・プロット」をクリックします。
「主目的都道府県」を「詳細(ボックス)」にドラッグ&ドロップします。
訪問目的別の箱ひげ図ができました。プロットされているのは、訪問先の都道府県です。
「観光・レクリエーション」を例に説明します。
マウスポインタをボックスにポイントすると、数値がポップアップします。
Q1が25パーセンタイルで、第一四分位数となります。
Q2は50パーセンタイルで、第二四分位数であり中央値です。
Q3は75パーセンタイルで、第三四分位数です。
Q1からQ3の間を四分位範囲といい、全体の50%が含まれます。
低となっている数値が、箱から伸びているひげの下限値です(この図では下限のひげが最小値と重なって見えづらくなっています)。
同様に、高となっている数値が、箱ひげの上限値です。
ひげから上下に飛び出ているデータは、外れ値です。
OACの箱ひげ図では、ひげの長さは四分位範囲の1.5倍となっています。
もう一度、箱ひげ図を見てみる
「観光・レクリエーション」に比べて、目的が「出張・業務」や「帰省・知人訪問等」の場合は、ボックスのサイズが小さくなっています。
より小さな範囲に全体の50%が収まっていることになり、訪問先による消費金額の差はあまりなさそうです。
目的に関わらず、常に最大値は東京都でした。北海道も常に2位か3位となっていますが、これは交通費のせいだと思われます。
次に、宿泊の有無によりどの程度傾向が変わるのかを見てみます。
やはり、日帰り旅行の場合、かなり消費金額が落ち込むのがわかります。
ポイントの表示をオフにすることで、外れ値を非表示にしてすっきりさせることもできます。