19
28

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?

More than 5 years have passed since last update.

(随時更新) スクレイピングハッカソンの為の情報リスト

Last updated at Posted at 2017-11-05

#はじめに

機械学習の活用において、有益なデータの取得は鍵ですよね!
オープンデータやKaggleも面白いデータが多いですが、価値あるデータほど成形されていない場合も多いので、Web上からAPIやスクレイピングで取ったり、買ってくることになります。
Team AIではこのスクレイピングをテーマにしたハッカソンを開催予定です。
www.team-ai.com
この記事にノウハウを貯めていき、皆で使えるアーカイブにしたいと思っています。

#前提条件

スクレイピング、クローリングする時の注意点
NGなことはしないようにしましょうね!
http://docs.pyq.jp/column/crawler.html

特に結果的に犯罪になったこの事件は必ず理解しましょう
https://media.accel-brain.com/librahack/

WEBサイトをスクレイピングしてAPI化するimport.ioを使ってみた
https://qiita.com/dnd0513/items/5b41481877408c6eb71f

#役に立つ記事(コーディング不要ツール)

##Crawly
これお手軽でいいです。何の設定もなく、URLを入れると無料で一瞬でスクレイピングしてくれます。
設定がカスタマイズできないのが難点
http://crawly.diffbot.com/?ref=producthunt

##Import.io

import.ioのアプリケーション版でスクレイピングをやってみる
=> とてもオススメですが、無料期間すぎると月$299です
https://qiita.com/t-usausausa/items/67a04445dc447aa5d40f

##その他ツール

Alternative products to Import.io
https://www.producthunt.com/alternatives/import-io

Who are the competitors to import.io?
https://www.quora.com/Who-are-the-competitors-to-import-io

Google SpreadSheet

SpreadSheetでスクレイピング。Importxml他、便利な関数9+1
https://qiita.com/ktmg/items/d53440c913e20f8bb34c

Google SpreadSheet のGAS(JavaScript)でスクレイピング(Webデータゲット)
https://qiita.com/standard-software/items/16214dc4e64d28952c2d

Google スプレッド シートでWebスクレイピング
https://qiita.com/nsakusaku/items/2c1ae8c6f6855db6bad0

#役に立つ記事(コーディング必要)

PythonとBeautiful Soupでスクレイピング
https://qiita.com/itkr/items/513318a9b5b92bd56185

Python Webスクレイピング 実践入門
https://qiita.com/Azunyan1111/items/9b3d16428d2bcc7c9406

PythonでWebスクレイピングする時の知見をまとめておく
http://vaaaaaanquish.hatenablog.com/entry/2017/06/25/202924

Webサイトをスクレイピングする時のちょっとしたコツ
https://qiita.com/h5y1m141@github/items/118571c94ca42d2daf6a

相席ラウンジ リアルタイムな女性来店数をRubyでスクレイピング
https://qiita.com/ts-3156/items/0d12869e00e7bbc07688

おうちカクテルで学ぶWebスクレイピング Ruby
https://qiita.com/iga_xx/items/1524d587dce329568ceb

#役に立つ本

PythonによるWebスクレイピング
https://www.oreilly.co.jp/books/9784873117614/

19
28
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
19
28

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?