PowerBI
PowerQuery

例を使用してテーブルを抽出する とは

Power BI Desktop で Webページに表示されているテキストを取り込みたい。すでに用意されているコネクターでは TABLEタグを認識しどのテーブルを取り込みますか?になっているのだけど、TABLEタグが使用されているとは限らないし。

Python や R で HTML をパースして取り込むとき、CSS セレクターを使って必要なものを指定する的な機能。2018/05 時点でプレビューの機能だけど、Power Query 以外もちょっと勉強できたので整理しておく。


やってみる

[データの取得] - [Web]

image.png

怒られる確率が低いであろうチョイスで Microsoft Store にお邪魔して。

image.png

そのまま読み込めそうな"テーブル"がないのですね。で、[例を使用してテーブルを抽出]する。

image.png

ここから"例" サンプルを入力していく。

image.png

"タイトル"という列名にしていくつか入力していると、デロンと。グレーの文字は中の人が これでいいよな!って言ってくれているタイトル。もし違っていれば、違っているところを修正すると精度があがる傾向にある。

image.png

"価格"列を追加して、金額をひとつだけ入力してみた。なんとなくよさげな感じではある。

image.png

しかし、実際読み込んでみるとちょっと修正が必要だったりする。

image.png

デスクトップ アプリケーションだけでここまでできるならイイ感じじゃね?と思うのです。AIですから概ね同じ結果になるのでしょうけど、いつも同じになるとは限らない。ならば、


もうすこし詳しくみる

一連の UI操作で生成されたPower Query のスクリプトはこんな感じ。

ここから先は人が手助けをすればよいわけで、最初から中の人に頼らず進めてもよいのですけど。


生成されたスクリプト(整形済)

let

Source =
Web.BrowserContents(
"https://www.microsoft.com/ja-jp/store/new/games/xbox?category=classics"
),
#"Extracted Table From Html" =
Html.Table(
Source,
{
{"タイトル", "H3"},
{"価格", ".c-price"}
},
[RowSelector=".m-product-placement-item"]
),
#"Changed Type" =
Table.TransformColumnTypes(
#"Extracted Table From Html",
{
{"タイトル", type text},
{"価格", type text}
}
)
in
#"Changed Type"


利用されている関数

利用されているふたつの関数 Html.Table / Web.BrowserContents あって、これを理解すればよいかなと。Web.BrowserContents も必要になるケースがあるけど、ここでは説明なしで次の機会にでも。


Html.Table 関数

この関数の構文は、


構文:Html.Table

Html.Table(

html as any, // text もしくは binary なので any
columnNamesSelectorPairs as list, // 列名とCSSセレクターの組合せ list の list
optional options as nullable record // フィールド名 RowSelector の record 値は CSS セレクター
)

なので、

Html.Table(

Source,
{
{"タイトル", "H3"},
{"価格", ".c-price"}
},
[RowSelector=".m-product-placement-item"]
)

は、クラス属性に "m-product-placement-item" が含まれる要素をまず行(row)とみなし、その子孫の要素のうち、H3タグでマークアップされた文字列を "タイトル"列に、クラス属性に "c-price" が含まれる要素でマークアップされた文字列を "価格"列 にしている。要素を特定するための CSS セレクターのうち、適していそうなものを中の人が考えてくれているわけです。


"価格"列 だけ見てみる

"タイトル"列はきっと大丈夫として、"価格"列についてはあるべき内容にしてみる。


該当部分のみ(部分的に省略済)

<div class="c-price">

<span itemprop="price" content="2916">¥2,916</span>
<span itemprop="priceCurrency" content="JPY/">
</span>
</div>

<div class="c-price">
<span itemprop="price" content="2160">¥2,160</span>
<span itemprop="priceCurrency" content="JPY/">
<sup>+</sup>
</span>
</div>

<div class="c-price">
<s aria-label="定価 ¥1,080 の商品"> ¥1,080</s>
<span aria-label="割引にて">&nbsp;</span>
<span itemprop="price" content="270">¥270</span>
<span itemprop="priceCurrency" content="JPY/">
</span>
</div>


いくつかのパターンが存在していてそれらを網羅できていないわけで、サンプルになるアイテムが少ないからかもしれないけれどもざっくり持ってきている。抽出したいものは"価格"だから、itemprop 属性が price の SPANタグでマークアップされた文字列であろう。


CSSセレクターを修正

Html.Table(

Source,
{
{"タイトル", "H3"},
{"価格", "SPAN[itemprop='price']"}
},
[RowSelector=".m-product-placement-item"]
)

これは欲しい結果を得られそうです。

image.png


ひとまず完成

let

Source =
Web.BrowserContents(
"https://www.microsoft.com/ja-jp/store/new/games/xbox?category=classics"
),
#"Extracted Table From Html" =
Html.Table(
Source,
{
{"タイトル", "H3"},
{"価格", "SPAN[itemprop='price']"}
},
[RowSelector=".m-product-placement-item"]
),
#"Changed Type" =
Table.TransformColumnTypes(
#"Extracted Table From Html",
{
{"タイトル", type text},
{"価格", Currency.Type}
},
"ja-jp"
)
in
#"Changed Type"


参考にした情報


その他