More than 5 years have passed since last update.

【RPA】自分がRPAをやるうえで使ったXPath

Posted at 2019-09-28

知らないと困るXPath

RPAでスクレイピングをやっていると特定の部分を指定して抽出するためにXPathも知識が必要になってきます。
今回は自分がスクレイピングをするうえで必要だったXPathを取り上げます。

XPathとは、XML Path Languageの事でXML形式の文書から、特定の部分を指定して抽出するための簡潔な構文です。
HTML形式の文書にも対応します。

今回は使ったものだけ記述します。
おそらく皆さんも使用すると思います。

使った一覧

.(ピリオド)・・・コンテキストノードを選択する

..(ダブルピリオド)・・・コンテキストノードの親を選択する

//para・・・ルートノードの子孫ノードから要素ノード para をすべて選択する。

para[1]・・・コンテキストノードの 1番目の子要素 para を選択する

chapter[title="Introduction"]・・・コンテキストノードの子要素 chapter のうち、文字列値が Introduction である
　　　　　　　　　　　　　　　　　　　子要素 title を 1個以上持つものを選択する

text()・・・コンテキストノードのすべての子テキストノードを選択する

following-sibling・・・コンテキストノードの後ろにあるすべての兄弟ノードの集合

今回は以上です。最後まで読んでいただき、ありがとうございました。