(随時更新) スクレイピングハッカソンの為の情報リスト

More than 1 year has passed since last update.


はじめに

機械学習の活用において、有益なデータの取得は鍵ですよね!

オープンデータやKaggleも面白いデータが多いですが、価値あるデータほど成形されていない場合も多いので、Web上からAPIやスクレイピングで取ったり、買ってくることになります。

Team AIではこのスクレイピングをテーマにしたハッカソンを開催予定です。

www.team-ai.com

この記事にノウハウを貯めていき、皆で使えるアーカイブにしたいと思っています。


前提条件

スクレイピング、クローリングする時の注意点

NGなことはしないようにしましょうね!

http://docs.pyq.jp/column/crawler.html

特に結果的に犯罪になったこの事件は必ず理解しましょう

https://media.accel-brain.com/librahack/

WEBサイトをスクレイピングしてAPI化するimport.ioを使ってみた

https://qiita.com/dnd0513/items/5b41481877408c6eb71f


役に立つ記事(コーディング不要ツール)


Crawly

これお手軽でいいです。何の設定もなく、URLを入れると無料で一瞬でスクレイピングしてくれます。

設定がカスタマイズできないのが難点

http://crawly.diffbot.com/?ref=producthunt


Import.io

import.ioのアプリケーション版でスクレイピングをやってみる

=> とてもオススメですが、無料期間すぎると月$299です

https://qiita.com/t-usausausa/items/67a04445dc447aa5d40f


その他ツール

Alternative products to Import.io

https://www.producthunt.com/alternatives/import-io

Who are the competitors to import.io?

https://www.quora.com/Who-are-the-competitors-to-import-io


Google SpreadSheet

SpreadSheetでスクレイピング。Importxml他、便利な関数9+1

https://qiita.com/ktmg/items/d53440c913e20f8bb34c

Google SpreadSheet のGAS(JavaScript)でスクレイピング(Webデータゲット)

https://qiita.com/standard-software/items/16214dc4e64d28952c2d

Google スプレッド シートでWebスクレイピング

https://qiita.com/nsakusaku/items/2c1ae8c6f6855db6bad0


役に立つ記事(コーディング必要)

PythonとBeautiful Soupでスクレイピング

https://qiita.com/itkr/items/513318a9b5b92bd56185

Python Webスクレイピング 実践入門

https://qiita.com/Azunyan1111/items/9b3d16428d2bcc7c9406

PythonでWebスクレイピングする時の知見をまとめておく

http://vaaaaaanquish.hatenablog.com/entry/2017/06/25/202924

Webサイトをスクレイピングする時のちょっとしたコツ

https://qiita.com/h5y1m141@github/items/118571c94ca42d2daf6a

相席ラウンジ リアルタイムな女性来店数をRubyでスクレイピング

https://qiita.com/ts-3156/items/0d12869e00e7bbc07688

おうちカクテルで学ぶWebスクレイピング Ruby

https://qiita.com/iga_xx/items/1524d587dce329568ceb


役に立つ本

PythonによるWebスクレイピング

https://www.oreilly.co.jp/books/9784873117614/