#好評されたCIAの機密文書
スノーデン氏がリークしてからというもの、Appleのローンチのように徐々に公開されてきた機密文書。
今回はオンラインで公開(前は知らない)されたので、機械学習で使えるかも?なんて思いスクレイピングでデータを取ることにしました。
#環境
- Python 3系
- Chrome Driver(Selenium)
#ページ数が94015ページとたいへん多くて時間がかかる
いまのところ1ページ4 sec.くらいで終わっているので、全体のデータが取得できるのに5日くらいかかる。
自分の端末だけでいまのところ動かす予定だが、何か良い方法がないだろうか・・・
※ページ数が多いためPDFのダウンロードについては行わず、PDFのhrefを取得して一括でダウンロードする予定。
ソースはこちら↓
https://github.com/chibadai/selenium_PDF_Downloader/blob/master/download_cia_pdf_pre.py