1

More than 3 years have passed since last update.

20230129_python_スクレイピング

0

Posted at 2023-01-28

はじめに

昨日呼んだ本の備忘録
加藤耕太さん「Python クローリング＆スクレイピング」

本文

Requests
- 内容をゲットしてくる
- 基本的な情報を閲覧することが出来る
パース
- 人間が扱いやすいように情報を変換する
HTTPで受信する時、内容自体はバイトで表される
文字コードを出来たら取得しよう
- タグやchsetを確認したいね
スクレイピングの流れ
- 情報を取ってくる
- 情報をパースする
- スクレイピング　要は抜き出すことをする
- 保存する
HTMLのスクレイピング
- Beautiful Soup
- pyquery
  - jQuery的な感じで操作できる
XMLのスクレイピング
- lxml
RSSのスクレイピング
- feedparser
データベースへの保存
- いろいろあるから保存の仕方や接続の方法はその都度調べよう
- 接続－処理ー切断　この流れなようだ

memo

プログラミングの勉強をするとき、頭の中にインデックス（索引）を作るようにして勉強するって言っていた人がいた。
それって、頭の中に「問題の解法」を記憶するってことじゃないかな。
問題の解法　＝　方針

参考文献

加藤耕太さん「Python クローリング＆スクレイピング」

1

Register as a new user and use Qiita more conveniently

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up

1