More than 5 years have passed since last update.

機密解除された「1,300万ページのCIA文書」がオンラインで公開されたので、それにあやかってデータを取ってみる

Posted at 2018-08-19

好評されたCIAの機密文書

　スノーデン氏がリークしてからというもの、Appleのローンチのように徐々に公開されてきた機密文書。
　今回はオンラインで公開（前は知らない）されたので、機械学習で使えるかも？なんて思いスクレイピングでデータを取ることにしました。

環境

Python 3系
Chrome Driver(Selenium)

ページ数が94015ページとたいへん多くて時間がかかる

　いまのところ１ページ4 sec.くらいで終わっているので、全体のデータが取得できるのに５日くらいかかる。
　自分の端末だけでいまのところ動かす予定だが、何か良い方法がないだろうか・・・
※ページ数が多いためPDFのダウンロードについては行わず、PDFのhrefを取得して一括でダウンロードする予定。

ソースはこちら↓
https://github.com/chibadai/selenium_PDF_Downloader/blob/master/download_cia_pdf_pre.py

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up