LoginSignup
2
4

More than 5 years have passed since last update.

機密解除された「1,300万ページのCIA文書」がオンラインで公開されたので、それにあやかってデータを取ってみる

Posted at

好評されたCIAの機密文書

 スノーデン氏がリークしてからというもの、Appleのローンチのように徐々に公開されてきた機密文書。
 今回はオンラインで公開(前は知らない)されたので、機械学習で使えるかも?なんて思いスクレイピングでデータを取ることにしました。

環境

  • Python 3系
  • Chrome Driver(Selenium)

ページ数が94015ページとたいへん多くて時間がかかる

 いまのところ1ページ4 sec.くらいで終わっているので、全体のデータが取得できるのに5日くらいかかる。
 自分の端末だけでいまのところ動かす予定だが、何か良い方法がないだろうか・・・
※ページ数が多いためPDFのダウンロードについては行わず、PDFのhrefを取得して一括でダウンロードする予定。

ソースはこちら↓
https://github.com/chibadai/selenium_PDF_Downloader/blob/master/download_cia_pdf_pre.py

2
4
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
2
4