More than 5 years have passed since last update.

機密解除された「1,300万ページのCIA文書」がオンラインで公開されたので、それにあやかってデータを取ってみる

Posted at 2018-08-19

#好評されたCIAの機密文書
　スノーデン氏がリークしてからというもの、Appleのローンチのように徐々に公開されてきた機密文書。
　今回はオンラインで公開（前は知らない）されたので、機械学習で使えるかも？なんて思いスクレイピングでデータを取ることにしました。

#環境

Python 3系
Chrome Driver(Selenium)

#ページ数が94015ページとたいへん多くて時間がかかる
　いまのところ１ページ4 sec.くらいで終わっているので、全体のデータが取得できるのに５日くらいかかる。
　自分の端末だけでいまのところ動かす予定だが、何か良い方法がないだろうか・・・
※ページ数が多いためPDFのダウンロードについては行わず、PDFのhrefを取得して一括でダウンロードする予定。

ソースはこちら↓
https://github.com/chibadai/selenium_PDF_Downloader/blob/master/download_cia_pdf_pre.py

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up