LoginSignup
1
3

More than 5 years have passed since last update.

Pythonクローラをハンズオン勉強会で作ってきた

Posted at

こちらの勉強会に参加してきたのでメモ

概要

Pythonでクローラを作りましょうという内容。
スライドで表示されるコードをJupyterに写経して実行してくスタイルでした
Jupyter を使用するためanacondaを入れといてくださいということだったのかな

使用ライブラリ

  • requests
  • BeautifulSoup
  • html5lib
  • pandas

クローラ作成の流れ

  1. データを抽出したいページを取得・保存 -> requests,
  2. ページのDOMツリーを確認する -> ブラウザのソースを確認する。ここが難しいのかなと
  3. 欲しいデータを抽出する -> BeautifulSoup。表形式データならpandasが便利

注意点

  • APIがあるならそれを使う
  • 利用規約を確認する
  • robots.txtを確認する
  • サイトに負荷をかけないようにアクセスする

良かったこと

勉強会の中では、Yahoo!ファイナンスの日経平均株価データを取得したのですが、「次へ」のリンクのURLを取得して行けばいいですよーって話でした。今思えば当たり前ですが、そこら辺何故か自分は自力で気が付かなかったのでよかったです。  
あとはJupyterを初めて使ったのですが、噂通り、メモ帳としてはいいですねこれ

会場内で起こったこと(エラーとその対処)

このままではただの日記なので、ちょっとは技術的なことも書いておきます。
- BeautifulSoupのインポートでエラー
- BeautifulSoupを呼び出したところでエラーが発生するのですが、原因はhtml5libのバージョンとの相性でした。バージョン指定して再インストールで解決。もともといれたのはBeautifulSoup(4.4.1)とhtml5lib(0.999999999)でした。
- !pip install --upgrade html5lib==1.0b8

1
3
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
1
3