Help us understand the problem. What is going on with this article?

(随時更新) スクレイピングハッカソンの為の情報リスト

More than 1 year has passed since last update.

はじめに

機械学習の活用において、有益なデータの取得は鍵ですよね!
オープンデータやKaggleも面白いデータが多いですが、価値あるデータほど成形されていない場合も多いので、Web上からAPIやスクレイピングで取ったり、買ってくることになります。
Team AIではこのスクレイピングをテーマにしたハッカソンを開催予定です。
www.team-ai.com
この記事にノウハウを貯めていき、皆で使えるアーカイブにしたいと思っています。

前提条件

スクレイピング、クローリングする時の注意点
NGなことはしないようにしましょうね!
http://docs.pyq.jp/column/crawler.html

特に結果的に犯罪になったこの事件は必ず理解しましょう
https://media.accel-brain.com/librahack/

WEBサイトをスクレイピングしてAPI化するimport.ioを使ってみた
https://qiita.com/dnd0513/items/5b41481877408c6eb71f

役に立つ記事(コーディング不要ツール)

Crawly

これお手軽でいいです。何の設定もなく、URLを入れると無料で一瞬でスクレイピングしてくれます。
設定がカスタマイズできないのが難点
http://crawly.diffbot.com/?ref=producthunt

Import.io

import.ioのアプリケーション版でスクレイピングをやってみる
=> とてもオススメですが、無料期間すぎると月$299です
https://qiita.com/t-usausausa/items/67a04445dc447aa5d40f

その他ツール

Alternative products to Import.io
https://www.producthunt.com/alternatives/import-io

Who are the competitors to import.io?
https://www.quora.com/Who-are-the-competitors-to-import-io

Google SpreadSheet

SpreadSheetでスクレイピング。Importxml他、便利な関数9+1
https://qiita.com/ktmg/items/d53440c913e20f8bb34c

Google SpreadSheet のGAS(JavaScript)でスクレイピング(Webデータゲット)
https://qiita.com/standard-software/items/16214dc4e64d28952c2d

Google スプレッド シートでWebスクレイピング
https://qiita.com/nsakusaku/items/2c1ae8c6f6855db6bad0

役に立つ記事(コーディング必要)

PythonとBeautiful Soupでスクレイピング
https://qiita.com/itkr/items/513318a9b5b92bd56185

Python Webスクレイピング 実践入門
https://qiita.com/Azunyan1111/items/9b3d16428d2bcc7c9406

PythonでWebスクレイピングする時の知見をまとめておく
http://vaaaaaanquish.hatenablog.com/entry/2017/06/25/202924

Webサイトをスクレイピングする時のちょっとしたコツ
https://qiita.com/h5y1m141@github/items/118571c94ca42d2daf6a

相席ラウンジ リアルタイムな女性来店数をRubyでスクレイピング
https://qiita.com/ts-3156/items/0d12869e00e7bbc07688

おうちカクテルで学ぶWebスクレイピング Ruby
https://qiita.com/iga_xx/items/1524d587dce329568ceb

役に立つ本

PythonによるWebスクレイピング
https://www.oreilly.co.jp/books/9784873117614/

daisuke-team-ai
機械学習の勉強会を毎週渋谷の拠点で開催。Slack Pluginとしての同時翻訳Chatbot - Kiaraを世界市場に向けて販売しています。"機械学習エンジニアになりたい人のための本"(翔泳社) Profile : https://www.ishiid.com/
https://www.jenio.co/
team-ai
渋谷の機械学習研究会コミュニティ。データ分析ハッカソンを開催。Kaggleを使って金融・医療データなどをグループワークで分析しています。論文輪読会などテーマを決めて最新技術を共同リサーチしています。
https://www.team-ai.com/
Why not register and get more from Qiita?
  1. We will deliver articles that match you
    By following users and tags, you can catch up information on technical fields that you are interested in as a whole
  2. you can read useful information later efficiently
    By "stocking" the articles you like, you can search right away
Comments
No comments
Sign up for free and join this conversation.
If you already have a Qiita account
Why do not you register as a user and use Qiita more conveniently?
You need to log in to use this function. Qiita can be used more conveniently after logging in.
You seem to be reading articles frequently this month. Qiita can be used more conveniently after logging in.
  1. We will deliver articles that match you
    By following users and tags, you can catch up information on technical fields that you are interested in as a whole
  2. you can read useful information later efficiently
    By "stocking" the articles you like, you can search right away
ユーザーは見つかりませんでした