複数のテキストデータをファイルにダウンロードしたい(R)
解決したいこと
85のテキスト論文をファイルにダウンロードしたいです。
社会科学のためのデータ分析入門(下)という教材を元に学習しています。
言語はRを使用しています。
https://guides.loc.ggov/federalist-papers/full-text
上記のサイト(アメリカ議会図書館)にある85の論文テキストデータをドキュメントに作成したフォルダ「federalist」にダウンロードするにはどうすればよいでしょうか。
ファイル名はfpXX.txtとし、XXは論文番号(01等)が入ります。
ダウンロードボタンも見当たらず、スクレーピングもうまくいっていません。
元々教材の通りに進めるのですが、スクレーピングの記述がなくchatGPT4に聞いてもよくわかりません。
この作業を行った後は以下のコードのdocumentの出力が85になるはずです。
##パッケージの読み込み
install.packages("tm")
install.packages("SnowballC")
library(tm , SnowballC)
##未加工のコーパス(テキストの集合)を読み込む。
corpus.raw <- VCorpus(DirSource(directory = "federalist", pattern = "fp"))
corpus.raw
教材内容のさらなる詳細は以下のURLから確認できます。
もしかしたらスクレーピングをするというのも私の解釈違いなのかもしれません。
https://rstudio-pubs-static.s3.amazonaws.com/845531_893e6ed12ebe451d9324b74401167570.html#%E3%82%B6%E3%83%95%E3%82%A7%E3%83%87%E3%83%A9%E3%83%AA%E3%82%B9%E3%83%88%E3%81%AE%E8%91%97%E8%80%85%E3%82%92%E3%82%81%E3%81%90%E3%82%8B%E8%AB%96%E4%BA%89