趣旨
PCを新調(Surface Pro 7に)したので、Webスクレイピング環境を改めて構築する。
と同時に、Windows10環境でPython、Seleniumを使用したWebスクレイピング環境の構築手順をメモとして残す。
1.Pythonをインストール
公式サイトよりインストーラを取得し、インストールする。
https://www.python.org/downloads/
インストール完了時、「Disable path length limit」をクリックするかしないか迷ったが、クリックしておいた。
Windowsの従前のバージョンではパスの長さが最大260文字までという制限があったため、Windows10 でもデフォルト状態ではパスの長さの制限が掛かっているらしい。
パスの長さが260文字を超えることはたぶんないと思うが、もし超えたときに余計なエラーで躓きたくないと思い制限解除(=Disable)しておいた。
ちなみにパスの長さの制限を解除できるようになったのはWindows10からのようで、意外と最近だった...。
正常にインストールできたか、念のため python --version で確認。
当記事執筆時点の最新バージョン(3.10.5)が無事インストールされた。
2.Seleniumをインストール
コマンドプロンプトで
pip install selenium
プロキシを介する場合は
--proxyオプションをつけてユーザ名・パスワード・プロキシサーバのURL等指定すればいけると思う。
3.WebDriverをダウンロード、配置
ひとまずEdgeが自動操作できればいいので、MicrosoftのサイトからEdge WebDriverをダウンロードし、任意の場所に置く。
https://developer.microsoft.com/ja-jp/microsoft-edge/tools/webdriver/
自分が使っているEdgeのバージョンを確認し、103だったので対応するバージョンのWebDriverをダウンロードする。(EdgeのバージョンとWebDriverのバージョンが異なると動かない)
4.動作確認
Googleのページを開くだけの簡単なテストコードを用意して、実行してみる。
# coding:utf-8
from selenium import webdriver
from selenium.webdriver.edge.service import Service
driver = webdriver.Edge(service=Service('C:\webdriver\msedgedriver.exe'))
driver.get('https://www.google.co.jp/')
無事に動いた。
ひとまずWebスクレイピングのための環境構築は完了。