Posted at

機密解除された「1,300万ページのCIA文書」がオンラインで公開されたので、それにあやかってデータを取ってみる

More than 1 year has passed since last update.


好評されたCIAの機密文書

 スノーデン氏がリークしてからというもの、Appleのローンチのように徐々に公開されてきた機密文書。

 今回はオンラインで公開(前は知らない)されたので、機械学習で使えるかも?なんて思いスクレイピングでデータを取ることにしました。


環境


  • Python 3系

  • Chrome Driver(Selenium)


ページ数が94015ページとたいへん多くて時間がかかる

 いまのところ1ページ4 sec.くらいで終わっているので、全体のデータが取得できるのに5日くらいかかる。

 自分の端末だけでいまのところ動かす予定だが、何か良い方法がないだろうか・・・

※ページ数が多いためPDFのダウンロードについては行わず、PDFのhrefを取得して一括でダウンロードする予定。

ソースはこちら↓

https://github.com/chibadai/selenium_PDF_Downloader/blob/master/download_cia_pdf_pre.py