@TaroNakasendo (中仙道太郎)posted at 2022-02-08

ブラウザでは普通に見られるのに、スクレイピングできないページがある

Q&A

Closed

解決したいこと

https://www .nespresso.com/jp/ja/order/capsules/original
↑(アクセスログが残って対策されてしまうとまずいので、リンクで飛ばないようにwwwの後にスペースを入れています)

上記ページの情報一覧を取得したいと考えていますが、seleniumを使ったコードからは、
うまくページがレンダリングできません。リンクもクリックすると、通常のブラウザの
挙動とは異なり、Access Denied となってしまいます。
これらのレンダリングが正しく行えるようにし、画像やタイトル、リンク先の情報を取得したいです。

発生している問題・エラー

画像やページが途中までは読み込めているが、途中から読み込まれなくなる。

該当するソースコード

from selenium import webdriver
# brew install --cask chromedriver

browser = webdriver.Chrome() # Mac
options = webdriver.ChromeOptions()
options.add_argument(f'user-agent=Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/79.0.3945.79 Safari/537.36') #追加
browser.implicitly_wait(5)
url = "https://www.nespresso.com/jp/ja/order/capsules/original"
browser.get(url)
time.sleep(10)

自分で試したこと

urllib.request+beautifulsoap4でも試していましたが、こちらもuser-agentを指定すると、なぜか返答が戻ってきませんでした。

0 likes

3Answer

@uasi posted at 2022-02-09

作った options をブラウザに渡していないせいで User Agent が変わっていないからだと思います。以下のように渡してください。

options = webdriver.ChromeOptions()
options.add_argument(f'user-agent=Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/79.0.3945.79 Safari/537.36') #追加
browser = webdriver.Chrome(options=options) # Mac

1Like

Comments

@TaroNakasendo
Questioner
上記を試してみましたが、残念ながら同様の結果となってしまいました。

@masuda58 posted at 2022-02-11

https://developer.mozilla.org/ja/docs/Web/API/Navigator/webdriver
このプロパティを削除するとブロックされない場合があります。
あとはUA以外のヘッダーを足してみるとかですかね。

1Like

Comments

@TaroNakasendo
Questioner
ありがとうございます。解決しました。

options.add_argument("--disable-blink-features=AutomationControlled")
browser = webdriver.Chrome(options=options)

を足すことにより、

is_webdriver = browser.execute_script('return window.navigator.webdriver;')
print(f'window.navigator.webdriver: {is_webdriver}')

で、navigator.webdriverが、True → False になり最後まで表示されるようになりました。

@shiracamus posted at 2022-02-08

ソースコードを読んでいませんが、よくあるパターンを回答しておきます。
よくあるのは、JavaScriptで動的ページをレンダリングしていたり、遅延レンダリングしている場合。
JavaScriptで認証キーを生成たりクッキーやCORSで制限しているページなら Access Denied になってもおかしくないです。

0Like

Comments

@TaroNakasendo
Questioner
その場合、普通のブラウザと同様の動きをさせて、ブラウザ相当の表示にすることはできないのでしょうか。

Are you sure you want to delete the question?

ブラウザでは普通に見られるのに、スクレイピングできないページがある

解決したいこと

発生している問題・エラー

該当するソースコード

自分で試したこと

3Answer

Comments

Comments

Comments

Your answer might help someone💌