LoginSignup
4
1

More than 3 years have passed since last update.

ACL Anthologyの論文一括DLスクリプト書いた

Last updated at Posted at 2019-07-01

注:小ネタです。

やったこと

ACL Anthologyの論文pdfを一括DLするスクリプトを書きました.

ACLAnthologyDownloader

NAACL2019の論文収集する時に「個別PDF欲しいけどひとつずつDLするのめんどくちゃい」と思ってしまったのでついうっかり書いてしまった.

依存ソフトウェア

  • Python3
  • Google Chrome
  • chromedriver
  • chromedriver_binary
  • selenium

使い方

python ./acl_anthology_downloader.py -e <event_name> -y <year> -o <output_dir> -d </path/to/chromedriver>

イベント名と年度を指定すると該当イベントのpdfをすべてDLする仕様になってます.

python ./acl_anthology_downloader.py -e NAACL -y 2019 -o papers/NAACL2019 -d /usr/local/bin/chromedriver

注意点

  • Selenium+chromedriverを使っているので,Chromeのバージョンと合ったchromedriverをインストールしてください
  • デフォルトだとheadlessモードで動作しますが,Linux環境などでheadlessでうまく動作しない場合は--xvfb/-xオプションを付与してください(当方のWSL環境だとこの状況になりました)

実装に関して

今までPythonでのスクレイピングはscrapyを愛用してきましたが,Seleniumにも慣れておきたい意図で今回はSelenium+chromedriverを使用しました.
chromedriverの動作環境構築のコストはかかりますが,APIはscrapyよりかなり使いやすい気がしますね.
Webアプリの自動テストにも使えるし(というか本来の用途はそちら)

おわりに

ICMLとかNIPSのダウンローダも書いておきたい.

4
1
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
4
1