ローカルにPythonの仮想環境を構築してスクレイピングした時の備忘録
参考元
https://qiita.com/thatbin/items/3ebdfc415d0c30d2f8f6
https://qiita.com/m-masaki72/items/7ba34e31d9f08662f1ee
https://qiita.com/t-yama-3/items/a21999a7f5b3debf3ec7
https://tanuhack.com/operate-spreadsheet/
https://tanuhack.com/library-gspread/
https://www-creators.com/archives/1662
本題
スクレイピング案件やるたびに忘れてググり直しているので、Python環境の構築からスクレイピング、取得データをスプレッドシートへ自動送受信操作まで行うために、どの記事をどの順番で読めばいいかまとめる。
いつもは google colaboratory でやっていたが、GitHub での管理のしやすさから始めてローカルに仮想環境を構築して行ってみた。
仮想環境の構築
https://qiita.com/thatbin/items/3ebdfc415d0c30d2f8f6
この通りにvirtualenvをインストールしてPython用の仮想環境を構築
https://qiita.com/m-masaki72/items/7ba34e31d9f08662f1ee
virtualenvはgitで管理すると便利なので、この記事通りに設定
スクレイピング設定
この記事に従って必要なライブラリをインポートしドライバーをダウンロード
注意
この記事の 3. ソースコードの記述の以下のコードは、Chrome()の引数に相対パスを記述しないとエラーをはく
driver = webdriver.Chrome() # WebDriverのインスタンスを作成
ドライバーが同階層にあるならこんな感じ
driver = webdriver.Chrome('./chromedriver') # WebDriverのインスタンスを作成
Pythonでスプレッドシートに読み書きする初期設定まとめ
注意
この記事の1-4. 認証情報を設定するで生成した秘密鍵をGit管理から外す
keyフォルダを作成し、その中に秘密鍵を入れる
.gitignoreファイルに以下を記述
key/
リモートリポジトリにプッシュした時にkeyフォルダが反映されていなければOK
ひとまずここまでで環境構築は終了
コーディングへ
gspreadライブラリの使い方まとめ
最初慣れないうちはこういう2次情報(ブログ記事など)見ながら実装してみて、詰まったらその部分限定で1次情報(公式ドキュメント)を見て仕様を確認するのがおすすめ。
1次情報は強い。