More than 3 years have passed since last update.

HTMLからXpathで必要な要素を切り抜く

Last updated at 2021-09-30Posted at 2021-09-30

はじめに

色々調査をしている時に、HTMLから任意の要素を切り抜く必要があったので、やり方をメモ。

でのみ試しています。Windows, Linuxでもxmllintが入っていれば動くかと思います。

ブラウザ上で切り抜きたい要素を右クリック、「検証」を選択
DevToolが表示されたら、そのElementsタブ内部で、要素を選択、右クリックでCopy > Copy full XPathを選択。切り取れたXPathは

/html/body/div/main/div[6]/div/table/tbody/tr[5]/td[2]

だったとする。このXPathをどこかにメモする。

ブラウザのコンソールから、以下のような形でXPathの動作検証ができる。

$x('/html/body/div/main/div[6]/div/table/tbody/tr/td[2]')

のような感じに設定して、配列でtrを繰り返しパースして、td部のデータが取得できるか、などを確認する。

DevToolからだとオブジェクトは取れるのだが、該当の文字列が取得できない。絞り込まれたオブジェクトを指定してコピー、テキストエディタなどに貼り付けても、空のオブジェクト配列しかとれなかった。

調べたところ、Mac OSXに標準で入っているxmllintを利用して文字列が取得できることがわかったので、以下のように対象HTMLをローカルにコピーして処理することにした。

次に、コマンドプロンプトを開き、test.htmlを保存したディレクトリに移動。XPathを以下のように変更

変更したXPathを指定したxmllint

xmllint --html -xpath "/html/body/div/main/div[6]/div/table/tbody/tr/td[2]/text()" test.html

これを実行すると、テーブルの任意の部分のテキストが切り取れる。