はじめに
個人的なまとめです。全てにおいて利用規約確認要。
クローリングとスクレイピング
・クローリング
Webページのハイパーリンクを辿って次々にWebページをダウンロードする作業
・スクレイピング
ダウンロードしたWebページから必要な情報を抜き出す作業
オープンデータ
Open Definition|オープンの定義:https://opendefinition.org/od/2.1/ja/
誰でも自由に使える公開データのこと。
データを商業利用でき、再配布もできる。原則無料。
オープンデータの例
■不定期に更新されるWikipediaのdump
オープンデータを探す
■日本政府
■地方自治体
■米国政府
LOD(Linked Open Data)
Web上でリンクするオープンデータ。
LODをダウンロードする(SPARQLエンドポイント)
WebAPI(公開WebAPI)
■政府 API
■国立図書館 API
■twitter API
■楽天 API
■Youtube Data API
■Yahoo!JAPAN API
■Google API
Webスクレイピング代行サービス(基本有料)
■import.io(無料版無くなったようです)
■完全な人力
Webスクレイピング(自分でやる)
- VBA + IE
- Python
- Selenium + ブラウザ
気をつけること
- UserAgentにメールアドレスなどの連絡先を記載
- robots.txtの確認(各サイトのトップに置かれているので/robots.txtでアクセスする)
- robots metaタグの確認(各サイトのHTMLファイルに直接記載されている)
モジュール
Webデータ整形・解析
■文字コード変換
■Excel+テキストエディタ
正規表現可能なお好きなもの
■整形
■形態素解析
補足。mecab-python3のGitHubは、こちら
// Linux環境のインストール
$ apt-get install -y mecab mecab-ipadic-utf8 libmecab-dev
// 公式がPython2のみ対応のためPython3で使う場合、上記と合わせてこちらもインストール。
$ pip install mecab-python3
$ pip install unidic-lite