はじめに
昨日呼んだ本の備忘録
加藤耕太さん「Python クローリング&スクレイピング」
本文
- Requests
- 内容をゲットしてくる
- 基本的な情報を閲覧することが出来る
- パース
- 人間が扱いやすいように情報を変換する
- HTTPで受信する時、内容自体はバイトで表される
- 文字コードを出来たら取得しよう
- タグやchsetを確認したいね
- スクレイピングの流れ
- 情報を取ってくる
- 情報をパースする
- スクレイピング 要は抜き出すことをする
- 保存する
- HTMLのスクレイピング
- Beautiful Soup
- pyquery
- jQuery的な感じで操作できる
- XMLのスクレイピング
- lxml
- RSSのスクレイピング
- feedparser
- データベースへの保存
- いろいろあるから保存の仕方や接続の方法はその都度調べよう
- 接続-処理ー切断 この流れなようだ
memo
- プログラミングの勉強をするとき、頭の中にインデックス(索引)を作るようにして勉強するって言っていた人がいた。
- それって、頭の中に「問題の解法」を記憶するってことじゃないかな。
- 問題の解法 = 方針
参考文献
加藤耕太さん「Python クローリング&スクレイピング」