LoginSignup
369
375

More than 5 years have passed since last update.

第1回Webスクレイピング勉強会@東京 (全3回)

Last updated at Posted at 2014-06-22

official

「Webスクレイピングの基礎知識」(@nezuq

  • SlideShare
  • 3つの壁を突破する
  • 倫理
    • 情報解析目的なら合法と解析と解釈(文化庁のQAに肯定的記述)
    • 常識的な範囲でのアクセス障害なら過失と言える。(国立国会図書館の場合、1秒以上あけてスクレイピングなら可能)
  • 技術
    • 最低限でもHTMLの知識
  • 事例(どう使うか)
    • データジャーナリズム(データからストーリーを見つけ提供する。NHKでやってる)
    • Data Journalism Handbook(大義がある)

「オープンデータのためのスクレイピング 〜抽出・共有・分析まで〜」(@ito_nao

  • SlideShare
  • プログラミング不要でスクレイピング出来るwebサービスのご紹介
  • Tabula
    • PDFからデータを抽出するツール
  • kimono
    • paginationが得意。
    • 構造化されたクローリングは苦手。
    • スケジューリング可能。
    • 分割取得可能。
  • importio
    • クライアントアプリ。
    • Pagination苦手。クローリングが得意。
    • スケジューリングが出来ない。
    • Connector実装
    • スプレッドシート出力
    • クライアントライブラリがある
    • gemパッケージがある
  • quandl
  • ScraperWiki

「ScrapyとPhantomJSを用いたWebスクレイピングDSL」(@chirai

  • SlideShare
  • DSL(yaml)を記述してScrapyでスクレイピング出来るようにしたというお話
  • Scrapy
    • webスクレイピングwaf
  • PhantomJS
    • AJAXページ遷移対応(headless動作)

「シェルスクリプトでスクフェス(スクレイピングフェスティバル)」(@furandon_pig

  • プレゼン資料
  • なぜシェルスクリプトで?
    • テキスト処理の親和性が良いから
    • プロトタイピング的な開発の為
    • 個人の場合だったら充分
  • ツール
    • w3m
    • grep
    • sed
    • awk
    • head
    • tail
    • printf
  • iCal形式にしてカレンダーに入れると時系列に見れたりして便利

LT

 

「Mecab辞書作り。自然言語処理の道も一歩から」(@nezuq

  • SlideShare
  • WordVBA(Document.words)
  • YahooAPI(日本語形態素解析API)
    • 回数と文章量に限界がある
  • Mecab
    • 新語・俗語に弱い
    • 辞書を拡張する(wikipedia,はてなキーワード,ニコニコ大百科)

「Rubyで始めるWebスクレイピング」(@dkfj

「CasperJSを使って任意のWebサイトをEPub電子書籍化する方法」(@chirai

第2回目、発表者絶賛募集中!

  • 発表者の方はキャンセル待ちでも参加可能とのこと。
  • マサカリ禁止で発表しやすい雰囲気でした。
369
375
5

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
369
375