@mukibunposted at 2023-10-13

PythonのWebスクレイピングにおけるエラー

Q&A

Closed

Python Webスクレイピング

解決したいこと

Pythonを学び始めの初心者ですが、参考書に従ってWebスクレイピングをしようとするとエラーが出ます。
何から手を付けていいか分からず、解決方法をご存じの方がいればお力添えいただけると助かります！

【補足】
・『仕事がはかどるPython＆Excel自動処理全部入り。』のサンプルコード
・社用PC、社内ネットワークを利用
・pip installは普通に実行すると必ず失敗するため、whlファイルを手動ダウンロード後にインストール

発生している問題・エラー

Traceback (most recent call last):
  File "C:\Users\499513\AppData\Local\Programs\Python\Python311\Lib\site-packages\urllib3\connection.py", line 203, in _new_conn
    sock = connection.create_connection(
           ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
  File "C:\Users\499513\AppData\Local\Programs\Python\Python311\Lib\site-packages\urllib3\util\connection.py", line 60, in create_connection    for res in socket.getaddrinfo(host, port, family, socket.SOCK_STREAM):
               ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
  File "C:\Users\499513\AppData\Local\Programs\Python\Python311\Lib\socket.py", line 962, in getaddrinfo
    for res in _socket.getaddrinfo(host, port, family, type, proto, flags):
               ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
socket.gaierror: [Errno 11001] getaddrinfo failed

The above exception was the direct cause of the following exception:  

Traceback (most recent call last):
  File "C:\Users\499513\AppData\Local\Programs\Python\Python311\Lib\site-packages\urllib3\connectionpool.py", line 790, in urlopen
    response = self._make_request(
               ^^^^^^^^^^^^^^^^^^^
  File "C:\Users\499513\AppData\Local\Programs\Python\Python311\Lib\site-packages\urllib3\connectionpool.py", line 491, in _make_request    
    raise new_e
  File "C:\Users\499513\AppData\Local\Programs\Python\Python311\Lib\site-packages\urllib3\connectionpool.py", line 467, in _make_request    
    self._validate_conn(conn)
  File "C:\Users\499513\AppData\Local\Programs\Python\Python311\Lib\site-packages\urllib3\connectionpool.py", line 1092, in _validate_conn  
    conn.connect()
  File "C:\Users\499513\AppData\Local\Programs\Python\Python311\Lib\site-packages\urllib3\connection.py", line 611, in connect
    self.sock = sock = self._new_conn()
                       ^^^^^^^^^^^^^^^^
  File "C:\Users\499513\AppData\Local\Programs\Python\Python311\Lib\site-packages\urllib3\connection.py", line 210, in _new_conn
    raise NameResolutionError(self.host, self, e) from e
urllib3.exceptions.NameResolutionError: <urllib3.connection.HTTPSConnection object at 0x0000023A537D1E10>: Failed to resolve 'book.impress.co.jp' ([Errno 11001] getaddrinfo failed)

The above exception was the direct cause of the following exception:  

Traceback (most recent call last):
  File "C:\Users\499513\AppData\Local\Programs\Python\Python311\Lib\site-packages\requests\adapters.py", line 486, in send
    resp = conn.urlopen(
           ^^^^^^^^^^^^^
  File "C:\Users\499513\AppData\Local\Programs\Python\Python311\Lib\site-packages\urllib3\connectionpool.py", line 844, in urlopen
    retries = retries.increment(
              ^^^^^^^^^^^^^^^^^^
  File "C:\Users\499513\AppData\Local\Programs\Python\Python311\Lib\site-packages\urllib3\util\retry.py", line 515, in increment
    raise MaxRetryError(_pool, url, reason) from reason  # type: ignore[arg-type]
    ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
urllib3.exceptions.MaxRetryError: HTTPSConnectionPool(host='book.impress.co.jp', port=443): Max retries exceeded with url: / (Caused by NameResolutionError("<urllib3.connection.HTTPSConnection object at 0x0000023A537D1E10>: Failed to resolve 'book.impress.co.jp' ([Errno 11001] getaddrinfo failed)"))

During handling of the above exception, another exception occurred:   

Traceback (most recent call last):
  File "d:\12_Python\python_excel\Chapter07\booklist_get.py", line 4, 
in <module>
    r = requests.get('https://book.impress.co.jp/')
        ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
  File "C:\Users\499513\AppData\Local\Programs\Python\Python311\Lib\site-packages\requests\api.py", line 73, in get
    return request("get", url, params=params, **kwargs)
           ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
  File "C:\Users\499513\AppData\Local\Programs\Python\Python311\Lib\site-packages\requests\api.py", line 59, in request
    return session.request(method=method, url=url, **kwargs)
           ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
  File "C:\Users\499513\AppData\Local\Programs\Python\Python311\Lib\site-packages\requests\sessions.py", line 589, in request
    resp = self.send(prep, **send_kwargs)
           ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
  File "C:\Users\499513\AppData\Local\Programs\Python\Python311\Lib\site-packages\requests\sessions.py", line 703, in send
    r = adapter.send(request, **kwargs)
        ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
  File "C:\Users\499513\AppData\Local\Programs\Python\Python311\Lib\site-packages\requests\adapters.py", line 519, in send
    raise ConnectionError(e, request=request)
requests.exceptions.ConnectionError: HTTPSConnectionPool(host='book.impress.co.jp', port=443): Max retries exceeded with url: / (Caused by NameResolutionError("<urllib3.connection.HTTPSConnection object at 0x0000023A537D1E10>: Failed to resolve 'book.impress.co.jp' ([Errno 11001] getaddrinfo failed)"))

該当するソースコード

import requests
from bs4 import BeautifulSoup

r = requests.get('https://book.impress.co.jp/')
soup = BeautifulSoup(r.text, 'html.parser')
print(soup.find('h2'))
print(soup.find('h2').text)

自分で試したこと

・コード打ち間違いがないことの確認
・見本の.pyファイルを実行しても失敗することを確認
・通信環境の確認（社用WiFiと正常に接続）
・コード中のURLを直接ブラウザに打ち込み→サイトが表示されることを確認
・別のURLに変えてコード実行してもスクレイピング失敗することを確認
・ModuleNotFoundErrorが出た場合はそのライブラリをインストール

0 likes

1Answer

@konbraphat51 posted at 2023-10-13

そちらのコード、こちらの環境では正常に動作しました。
おそらくセキュリティの問題だと思います。

経験則ですが、職場のwebサーバーがセキュリティの設定などでpythonからの接続が弾いていたりしている場合、お使いのVPNやプロキシやセキュリティソフトやファイアウォールがブラウザ以外からのネット接続（Pythonも）を阻止している場合があります。
もしこれらのうち心当たりがあれば、社則の許す限り切ってみて試してはいかがでしょうか？

あるいは、ご自宅だと正常に成功するかと思います。

3Like

Comments

@mukibun
Questioner
早速のご回答ありがとうございます！

セキュリティ関連の機能・設定の影響でネット接続が弾かれているのですね…。
スクレイピング以外のサンプルコードは問題ないので納得です。
自宅等の別環境で正常に作動するようなら、切っていい範囲を調べてみようと思います。

大変参考になりました！
@HalHarada
@konbraphat51さんの考えているプロキシが遮断していると思います。

BeautifulSoupはseleniumのように実際表示しているwebブラウザを中継せず、直接、コンテンツを取りにいきます。

対策:　proxyを突破するか？seleniumに乗り換える。
@mukibun
Questioner
@HalHarada さんご助言ありがとうございます！

BeautifulSoupとは違う仕組みでスクレイピングできるライブラリもあるんですね。
業務的に社内ネットワークの管理には関わっておらずproxyを突破できるか怪しいので、seleniumの方も試してみたいと思います！
@konbraphat51
@mukibun さん
ちょっと違います！
requestsの代わりがseleniumを使って、解析はBeautifulSoupのままって感じです。
理由としては、Pythonから直接のネットアクセスを遮断されている可能性が高いので、seleniumでブラウザを自動操作することによって、「ブラウザからのネット接続」判定をもらって通そう、という寸法です。やってみてください。
@mukibun
Questioner
@konbraphat51 さん、ご丁寧に補足いただきありがとうございます。

コメントを参考にして以下のコードに書き換えてみたところ、Webドライバーの実行及びページ情報の取得はできるようになりました！
エラーだらけなのは謎ですが。。。
（エラーメッセージが長文で表示された後、ブラウザが開いてprintが実行される）

不格好ですが、これでとりあえずスクレイピング自体は何とかなりそうです。
非常に助かりました！

（@HalHarada さん、Seleniumについてご提案いただきありがとうございました！）
from selenium import webdriver from bs4 import BeautifulSoup driver = webdriver.Edge() driver.get('https://book.impress.co.jp/') r = driver.page_source soup = BeautifulSoup(r, 'html.parser') print(soup.find('h2')) print(soup.find('h2').text)
@HalHarada
解決おめでとうございます。

webdriverとBeautifulSoupの抱き合わせ案ですね!

対応が早い、コードが見やすいで素晴らしいの一言です。

Are you sure you want to delete the question?