PDFからデータを取り出す
米Appleが7月27日、2021年度第3四半期(4-6月)の業績を発表しました。
売上高は814憶ドルと、4〜6月期としては過去最高を更新したそうです。
Net sales:$ | June 26,2021 | June 27,2020 |
---|---|---|
Products | 63,948 | 46,529 |
Services | 17,486 | 13,156 |
Total net sales | 81,434 | 59,685 |
今回上記サイトで公開されているPDFから、Power BI Desktopで業績の数字を取り込み、(多少強引な方法になりますが)ウォーフォール図を作成してみました。
まずは、ポイントとなる項目の日本語の意味を確認しておきます。
Net sales : 売上高
Cost of sales : 売上原価
Operating expenses : 営業費用
Operating income : 営業利益
Net income : 当期純利益
Power BI DesktopでPDF内のデータを取得します。
今回は下の画面のチェックしたテーブルを取り込みました。
Power Queryエディターで加工します。
不要な列などを削除します。
2020年と2021年の業績が並ぶので、区別しやすいように、プレフィックスで先頭に年号を付けるようにします。
この行を(他のテーブルを追加した後の)ヘッダーとしたいので、使わない行(一番下)を削除します。
「ホーム」 → 「1行目をヘッダーとして利用」 でヘッダーとして利用できるようにしておきます。
クエリの追加で1つのテーブルに
取り込んだ複数のクエリ(テーブル)を「クエリの追加」で追加します。
なお、その際に、各列のデータ型が一致していないいけないため、各クエリーの途中で「テキスト型」に変更する手続きを入れています。
これをしないと、「クエリの追加」がうまくいきません。
「1行目をヘッダーとして利用」 でヘッダーを設定します。
整理しやすい、見つけやすいように「インデックス列を追加」し、「列のマージ」で項目(item)列と結合します。
視覚化する際に扱いやすいように、横に並んだ同族性の列を2つの列に収めるために「(選択した以外の)その他の列のピボット解除」を実行します。
実行した結果です。
コスト(経費)はマイナス×1
「Cost of sales」(売上原価)は出ていくお金なので、ウォーターフォール図用にはマイナスにしておく必要があります。
「標準」 → 「乗算」で「-1」をかけるステップを挿入しておきます。
ただ、このテーブルでは収入と支出の費用が同名で並んでいます。
複製して、収入と支出のテーブル(クエリ)に分けます。
複製して、以下のように行を削除します。
複製元テーブルは、上記で削除しなかった行を削除します(収入なので「乗算」で「-1」をかけるステップは外しておきます)。
同様に「Operating income」から「Net income」を含むテーブルも収入と支出の数字が混在しているので、複製して支出の方は「-1」を乗じ、テーブルを分けました。
「ホーム」 → 「適用」で可視化画面に移ります。
確認用に棒グラフを作成し、ウォーターフォール図を用意しました。
このケースでは、「スライサー」で以下を選択し、「Net income」(当期純利益)を算出しています。
- 1,Products
- 2,Services
- 23,Other income/(expense), net
- 28,Research and development
- 29,Selling, general and administrative
- 5,Products-cost
- 6,Services-cost
- 25,Provision for income taxes-tax
併せて、スライサーで「2021 June 26」を選択できるようにし、21年度第3四半期単独の業績を可視化できるようにしました。
ウォーターフォール図のサイズを置きく、データラベルを配置するなどしました。
前年同時期の業績をその下に並べました。
比較しやすいようにY軸のサイズを21年度と合せました。
今後も同じフォーマットのPDFで業績データが公開されたら、インポートすれば設定した手続きがを経由して、ウォーターフォール図の作成まで実行してくれます。
了