#はじめに
個人的なまとめです。全てにおいて利用規約確認要。
#クローリングとスクレイピング
・クローリング
Webページのハイパーリンクを辿って次々にWebページをダウンロードする作業
・スクレイピング
ダウンロードしたWebページから必要な情報を抜き出す作業
#オープンデータ
Open Definition|オープンの定義:https://opendefinition.org/od/2.1/ja/
誰でも自由に使える公開データのこと。
データを商業利用でき、再配布もできる。原則無料。
####オープンデータの例
https://www.data.jma.go.jp/gmd/risk/obsdl/
######■不定期に更新されるWikipediaのdump
https://dumps.wikimedia.org/jawiki/
####オープンデータを探す
######■日本政府
https://www.e-stat.go.jp/
######■地方自治体
http://citydata.jp/
######■米国政府
https://www.data.gov/
#LOD(Linked Open Data)
Web上でリンクするオープンデータ。
####LODをダウンロードする(SPARQLエンドポイント)
https://data.e-stat.go.jp/lodw/
#WebAPI(公開WebAPI)
######■政府 API
https://www.e-stat.go.jp/api/
######■国立図書館 API
https://www.ndl.go.jp/jp/use/api/index.html
######■twitter API
https://developer.twitter.com/
######■楽天 API
https://webservice.rakuten.co.jp/document/
######■Youtube Data API
https://developers.google.com/youtube/v3/getting-started?hl=ja
######■Yahoo!JAPAN API
https://developer.yahoo.co.jp/sitemap/
######■Google API
https://console.cloud.google.com/google/maps-apis/
#Webスクレイピング代行サービス(基本有料)
######■import.io(無料版無くなったようです)
https://www.import.io/
######■完全な人力
https://services.sms-datatech.co.jp/pig-data/dataorder/
#Webスクレイピング(自分でやる)
- VBA + IE
- Python
- Selenium + ブラウザ
####気をつけること
- UserAgentにメールアドレスなどの連絡先を記載
- robots.txtの確認(各サイトのトップに置かれているので/robots.txtでアクセスする)
- robots metaタグの確認(各サイトのHTMLファイルに直接記載されている)
####モジュール
http://kondou.com/BS4/
#Webデータ整形・解析
######■文字コード変換
https://linux.die.net/man/1/nkf
######■Excel+テキストエディタ
正規表現可能なお好きなもの
######■整形
https://linux.die.net/man/1/awk
######■形態素解析
https://taku910.github.io/mecab/
補足。mecab-python3のGitHubは、こちら
// Linux環境のインストール
$ apt-get install -y mecab mecab-ipadic-utf8 libmecab-dev
// 公式がPython2のみ対応のためPython3で使う場合、上記と合わせてこちらもインストール。
$ pip install mecab-python3
$ pip install unidic-lite