LoginSignup
1
5

More than 1 year has passed since last update.

WEBスクレイピング・クローリングまとめ

Last updated at Posted at 2021-08-03

はじめに

個人的なまとめです。全てにおいて利用規約確認要。

クローリングとスクレイピング

・クローリング
 Webページのハイパーリンクを辿って次々にWebページをダウンロードする作業
・スクレイピング
 ダウンロードしたWebページから必要な情報を抜き出す作業

オープンデータ

Open Definition|オープンの定義:https://opendefinition.org/od/2.1/ja/
誰でも自由に使える公開データのこと。
データを商業利用でき、再配布もできる。原則無料。

オープンデータの例

■不定期に更新されるWikipediaのdump

オープンデータを探す

■日本政府

■地方自治体

■米国政府

LOD(Linked Open Data)

Web上でリンクするオープンデータ。

LODをダウンロードする(SPARQLエンドポイント)

WebAPI(公開WebAPI)

■政府 API

■国立図書館 API

■twitter API

■楽天 API

■Youtube Data API

■Yahoo!JAPAN API

■Google API

Webスクレイピング代行サービス(基本有料)

■import.io(無料版無くなったようです)

■完全な人力

Webスクレイピング(自分でやる)

  • VBA + IE
  • Python
  • Selenium + ブラウザ

気をつけること

  • UserAgentにメールアドレスなどの連絡先を記載
  • robots.txtの確認(各サイトのトップに置かれているので/robots.txtでアクセスする)
  • robots metaタグの確認(各サイトのHTMLファイルに直接記載されている)

モジュール

Webデータ整形・解析

■文字コード変換

■Excel+テキストエディタ

正規表現可能なお好きなもの

■整形

■形態素解析

補足。mecab-python3のGitHubは、こちら

// Linux環境のインストール
$ apt-get install -y mecab mecab-ipadic-utf8 libmecab-dev
// 公式がPython2のみ対応のためPython3で使う場合、上記と合わせてこちらもインストール。
$ pip install mecab-python3
$ pip install unidic-lite

参考

  

1
5
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
1
5