知らないと困るXPath
RPAでスクレイピングをやっていると特定の部分を指定して抽出するためにXPathも知識が必要になってきます。
今回は自分がスクレイピングをするうえで必要だったXPathを取り上げます。
XPathとは
XPathとは、XML Path Languageの事でXML形式の文書から、特定の部分を指定して抽出するための簡潔な構文です。
HTML形式の文書にも対応します。
パスの種類
今回は使ったものだけ記述します。
おそらく皆さんも使用すると思います。
使った一覧
.(ピリオド)・・・コンテキストノードを選択する
..(ダブルピリオド)・・・コンテキストノードの親を選択する
//para・・・ルートノードの子孫ノードから要素ノード para をすべて選択する。
//para・・・ルートノードの子孫ノードから要素ノード para をすべて選択する。
para[1]・・・コンテキストノードの 1番目の子要素 para を選択する
chapter[title="Introduction"]・・・コンテキストノードの子要素 chapter のうち、文字列値が Introduction である
子要素 title を 1個以上持つものを選択する
text()・・・コンテキストノードのすべての子テキストノードを選択する
text()・・・コンテキストノードのすべての子テキストノードを選択する
following-sibling・・・コンテキストノードの後ろにあるすべての兄弟ノードの集合
今回は以上です。最後まで読んでいただき、ありがとうございました。