1
5

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?

More than 3 years have passed since last update.

WEBスクレイピング・クローリングまとめ

Last updated at Posted at 2021-08-03

#はじめに
個人的なまとめです。全てにおいて利用規約確認要。

#クローリングとスクレイピング
・クローリング
 Webページのハイパーリンクを辿って次々にWebページをダウンロードする作業
・スクレイピング
 ダウンロードしたWebページから必要な情報を抜き出す作業

#オープンデータ
Open Definition|オープンの定義:https://opendefinition.org/od/2.1/ja/
誰でも自由に使える公開データのこと。
データを商業利用でき、再配布もできる。原則無料。

####オープンデータの例
https://www.data.jma.go.jp/gmd/risk/obsdl/

######■不定期に更新されるWikipediaのdump
https://dumps.wikimedia.org/jawiki/

####オープンデータを探す
######■日本政府
https://www.e-stat.go.jp/

######■地方自治体
http://citydata.jp/

######■米国政府
https://www.data.gov/

#LOD(Linked Open Data)
Web上でリンクするオープンデータ。

####LODをダウンロードする(SPARQLエンドポイント)
https://data.e-stat.go.jp/lodw/

#WebAPI(公開WebAPI)
######■政府 API
https://www.e-stat.go.jp/api/

######■国立図書館 API
https://www.ndl.go.jp/jp/use/api/index.html

######■twitter API
https://developer.twitter.com/

######■楽天 API
https://webservice.rakuten.co.jp/document/

######■Youtube Data API
https://developers.google.com/youtube/v3/getting-started?hl=ja

######■Yahoo!JAPAN API
https://developer.yahoo.co.jp/sitemap/

######■Google API
https://console.cloud.google.com/google/maps-apis/

#Webスクレイピング代行サービス(基本有料)

######■import.io(無料版無くなったようです)
https://www.import.io/

######■完全な人力
https://services.sms-datatech.co.jp/pig-data/dataorder/

#Webスクレイピング(自分でやる)

  • VBA + IE
  • Python
  • Selenium + ブラウザ

####気をつけること

  • UserAgentにメールアドレスなどの連絡先を記載
  • robots.txtの確認(各サイトのトップに置かれているので/robots.txtでアクセスする)
  • robots metaタグの確認(各サイトのHTMLファイルに直接記載されている)

####モジュール
http://kondou.com/BS4/

#Webデータ整形・解析

######■文字コード変換
https://linux.die.net/man/1/nkf

######■Excel+テキストエディタ
正規表現可能なお好きなもの

######■整形
https://linux.die.net/man/1/awk

######■形態素解析
https://taku910.github.io/mecab/

補足。mecab-python3のGitHubは、こちら

// Linux環境のインストール
$ apt-get install -y mecab mecab-ipadic-utf8 libmecab-dev
// 公式がPython2のみ対応のためPython3で使う場合、上記と合わせてこちらもインストール。
$ pip install mecab-python3
$ pip install unidic-lite

#参考
  

1
5
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
1
5

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?