Edited at

第1回Webスクレイピング勉強会@東京 (全3回)

More than 5 years have passed since last update.


official


「Webスクレイピングの基礎知識」(@nezuq


  • SlideShare

  • 3つの壁を突破する

  • 倫理


    • 情報解析目的なら合法と解析と解釈(文化庁のQAに肯定的記述)

    • 常識的な範囲でのアクセス障害なら過失と言える。(国立国会図書館の場合、1秒以上あけてスクレイピングなら可能)



  • 技術


    • 最低限でもHTMLの知識



  • 事例(どう使うか)


    • データジャーナリズム(データからストーリーを見つけ提供する。NHKでやってる)

    • Data Journalism Handbook(大義がある)




「オープンデータのためのスクレイピング 〜抽出・共有・分析まで〜」(@ito_nao


  • SlideShare

  • プログラミング不要でスクレイピング出来るwebサービスのご紹介


  • Tabula


    • PDFからデータを抽出するツール




  • kimono


    • paginationが得意。

    • 構造化されたクローリングは苦手。

    • スケジューリング可能。

    • 分割取得可能。




  • importio


    • クライアントアプリ。

    • Pagination苦手。クローリングが得意。

    • スケジューリングが出来ない。

    • Connector実装

    • スプレッドシート出力

    • クライアントライブラリがある

    • gemパッケージがある



  • quandl

  • ScraperWiki


「ScrapyとPhantomJSを用いたWebスクレイピングDSL」(@chirai


  • SlideShare

  • DSL(yaml)を記述してScrapyでスクレイピング出来るようにしたというお話


  • Scrapy


    • webスクレイピングwaf




  • PhantomJS


    • AJAXページ遷移対応(headless動作)




「シェルスクリプトでスクフェス(スクレイピングフェスティバル)」(@furandon_pig


  • プレゼン資料

  • なぜシェルスクリプトで?


    • テキスト処理の親和性が良いから

    • プロトタイピング的な開発の為

    • 個人の場合だったら充分



  • ツール


    • w3m

    • grep

    • sed

    • awk

    • head

    • tail

    • printf



  • iCal形式にしてカレンダーに入れると時系列に見れたりして便利


LT

 


「Mecab辞書作り。自然言語処理の道も一歩から」(@nezuq


  • SlideShare

  • WordVBA(Document.words)

  • YahooAPI(日本語形態素解析API)


    • 回数と文章量に限界がある



  • Mecab


    • 新語・俗語に弱い

    • 辞書を拡張する(wikipedia,はてなキーワード,ニコニコ大百科)




「Rubyで始めるWebスクレイピング」(@dkfj


「CasperJSを使って任意のWebサイトをEPub電子書籍化する方法」(@chirai


第2回目、発表者絶賛募集中!


  • 発表者の方はキャンセル待ちでも参加可能とのこと。

  • マサカリ禁止で発表しやすい雰囲気でした。