Help us understand the problem. What is going on with this article?

第1回Webスクレイピング勉強会@東京 (全3回)

More than 5 years have passed since last update.

official

「Webスクレイピングの基礎知識」(@nezuq

  • SlideShare
  • 3つの壁を突破する
  • 倫理
    • 情報解析目的なら合法と解析と解釈(文化庁のQAに肯定的記述)
    • 常識的な範囲でのアクセス障害なら過失と言える。(国立国会図書館の場合、1秒以上あけてスクレイピングなら可能)
  • 技術
    • 最低限でもHTMLの知識
  • 事例(どう使うか)
    • データジャーナリズム(データからストーリーを見つけ提供する。NHKでやってる)
    • Data Journalism Handbook(大義がある)

「オープンデータのためのスクレイピング 〜抽出・共有・分析まで〜」(@ito_nao

  • SlideShare
  • プログラミング不要でスクレイピング出来るwebサービスのご紹介
  • Tabula
    • PDFからデータを抽出するツール
  • kimono
    • paginationが得意。
    • 構造化されたクローリングは苦手。
    • スケジューリング可能。
    • 分割取得可能。
  • importio
    • クライアントアプリ。
    • Pagination苦手。クローリングが得意。
    • スケジューリングが出来ない。
    • Connector実装
    • スプレッドシート出力
    • クライアントライブラリがある
    • gemパッケージがある
  • quandl
  • ScraperWiki

「ScrapyとPhantomJSを用いたWebスクレイピングDSL」(@chirai

  • SlideShare
  • DSL(yaml)を記述してScrapyでスクレイピング出来るようにしたというお話
  • Scrapy
    • webスクレイピングwaf
  • PhantomJS
    • AJAXページ遷移対応(headless動作)

「シェルスクリプトでスクフェス(スクレイピングフェスティバル)」(@furandon_pig

  • プレゼン資料
  • なぜシェルスクリプトで?
    • テキスト処理の親和性が良いから
    • プロトタイピング的な開発の為
    • 個人の場合だったら充分
  • ツール
    • w3m
    • grep
    • sed
    • awk
    • head
    • tail
    • printf
  • iCal形式にしてカレンダーに入れると時系列に見れたりして便利

LT

 

「Mecab辞書作り。自然言語処理の道も一歩から」(@nezuq

  • SlideShare
  • WordVBA(Document.words)
  • YahooAPI(日本語形態素解析API)
    • 回数と文章量に限界がある
  • Mecab
    • 新語・俗語に弱い
    • 辞書を拡張する(wikipedia,はてなキーワード,ニコニコ大百科)

「Rubyで始めるWebスクレイピング」(@dkfj

「CasperJSを使って任意のWebサイトをEPub電子書籍化する方法」(@chirai

第2回目、発表者絶賛募集中!

  • 発表者の方はキャンセル待ちでも参加可能とのこと。
  • マサカリ禁止で発表しやすい雰囲気でした。
mercari
フリマアプリ「メルカリ」を、グローバルで開発しています。
https://tech.mercari.com/
Why not register and get more from Qiita?
  1. We will deliver articles that match you
    By following users and tags, you can catch up information on technical fields that you are interested in as a whole
  2. you can read useful information later efficiently
    By "stocking" the articles you like, you can search right away