tabataba1592
@tabataba1592 (Taba Taba)

Are you sure you want to delete the question?

If your question is resolved, you may close it.

Leaving a resolved question undeleted may help others!

We hope you find it useful!

webdriverで表示したwebサイトから別のサイトにアクセスできない

webdriverで表示したwebサイトから別のサイトにアクセスできない

pythonを使用して転職サイトで職種や勤務地等の条件を選択し自動で検索するプログラムを書こうとしています。
ライブラリはseleniumを使用し、htmlのXpathを取得し、クリックするという操作を繰り返しています。
条件の選択は問題なく動きましたが、検索ボタンを押し別のページに飛ぶと

このサイトにアクセスできません
https://doda.jp/DodaFront/View/JobSearchList.action?sid=TopSearch&usrclk=PC_logout_kyujinSearchArea_searchButton のウェブページは一時的に停止しているか、新しいウェブアドレスに移動した可能性があります。
ERR_HTTP2_PROTOCOL_ERROR

と表示されます。

該当するソースコード

from bs4 import BeautifulSoup
from selenium import webdriver
from selenium.webdriver.common.by import By
import time

url = "XXXX"
driver = webdriver.Chrome()
driver.get(url)
time.sleep(3)

html_class = driver.find_element(By.XPATH,'選択肢のxpath')
html_class.click()
time.sleep(3)

search_botton = driver.find_element(By.XPATH,'検索ボタンのxpath')
search_botton.click()

試したこと

AIに聞いたところseleniumとブラウザの互換性の問題じゃないか。下記のコードで試してみて、と言われたので辞意移行するも同様のエラーが発生。

options = webdriver.ChromeOptions()
options.add_experimental_option("excludeSwitches", ['enable-automation'])

お詫び

拙い文章で申し訳ありません...!

0

1Answer

robots.txt で該当のページに Disallow が設定されているからではないでしょうか。
Disallow が設定されているということはクローリングが許可されていないということですので、プログラムによる自動検索を行ってはいけません。
web スクレイピングを行う場合は対象の利用規約や robots.txt を確認したうえで禁止されていないかよく確認してから取り掛かるよう注意してください。

robots.txt に関しては以下のサイトなどが参考になるかと思います。
https://docs.pyq.jp/column/crawler.html

0Like

Your answer might help someone💌