@sawata0324 (Sawata)posted at 2023-08-22

複数のテキストデータをファイルにダウンロードしたい(R)

Q&A

解決したいこと

85のテキスト論文をファイルにダウンロードしたいです。
社会科学のためのデータ分析入門(下)という教材を元に学習しています。
言語はRを使用しています。

https://guides.loc.ggov/federalist-papers/full-text
上記のサイト(アメリカ議会図書館)にある85の論文テキストデータをドキュメントに作成したフォルダ「federalist」にダウンロードするにはどうすればよいでしょうか。
ファイル名はfpXX.txtとし、XXは論文番号(01等)が入ります。

ダウンロードボタンも見当たらず、スクレーピングもうまくいっていません。
元々教材の通りに進めるのですが、スクレーピングの記述がなくchatGPT4に聞いてもよくわかりません。

この作業を行った後は以下のコードのdocumentの出力が85になるはずです。

##パッケージの読み込み
install.packages("tm")
install.packages("SnowballC")
library(tm , SnowballC)
##未加工のコーパス(テキストの集合)を読み込む。
corpus.raw <- VCorpus(DirSource(directory = "federalist", pattern = "fp"))
corpus.raw

教材内容のさらなる詳細は以下のURLから確認できます。
もしかしたらスクレーピングをするというのも私の解釈違いなのかもしれません。
https://rstudio-pubs-static.s3.amazonaws.com/845531_893e6ed12ebe451d9324b74401167570.html#%E3%82%B6%E3%83%95%E3%82%A7%E3%83%87%E3%83%A9%E3%83%AA%E3%82%B9%E3%83%88%E3%81%AE%E8%91%97%E8%80%85%E3%82%92%E3%82%81%E3%81%90%E3%82%8B%E8%AB%96%E4%BA%89

0 likes

2Answer

@amate posted at 2023-08-22

https://guides.loc.gov/federalist-papers/full-text
正しいURLはこれかな
教材も見たが、この教材自身がスクレイピングのやり方を教えてくれるわけではなさそう
つまり、自分の力でスクレイピングをやらなければならないようだ
教材を進めるためには、Beautiful Soupの使い方を覚えるか、手動でサイトからテキストをコピーして85個のファイルを作る必要がある

2Like

Comments

@sawata0324
Questioner
URLはその通りです！
BeautifulSoupについて調べてみます！
だめなら主導でやってみます！
回答ありがとうございます！

@nak435 posted at 2023-08-22

上記のサイト(アメリカ議会図書館)にある85の論文テキストデータをドキュメントに作成したフォルダ「federalist」にダウンロードするにはどうすればよいでしょうか。
ファイル名はfpXX.txtとし、XXは論文番号(01等)が入ります。
ダウンロードボタンも見当たらず、スクレーピングもうまくいっていません。

このサイトを見てみましたが、全85編のデータは、全10ページのWebページに別れて、各ページに10編づつ（最終ページは5編）表示されますが、HTML上はその内容テキストが展開されているので、該当部分だけをダウンロードすることはできません。そこで「スクレーピング」ということでしょうが、HTMLの知識やPythonなどの言語知識が無いと簡単ではありません。

一方、後半のリンク「経営のための統計学II『第12回テキスト・データ分析1』」では、『85篇の論文は、アメリカ議会図書館のウェブサイトからスクレープ（収集）され、fpXX.txt として保存されている。』と書いてあり、過去にすでに行われていると読み取れます。もし、著者や過去にこの課題に取り組まれた方とつながりがおありなら、そちらに所在をお聞きになった方が早いです。

もしご自身で全85編のデータをテキストファイル化するのならば、「スクレーピング」ではなく、Webページから手動でコピペをやられた方がずっと早いと思います。高々85ですから（数百〜千なら別ですが）。

それと、質問の後半のR言語によるデータ分析についてですが、これは、fpxx.txtを入手してからの話ですので、このQ&Aとは別に新たなQ&Aとして投稿される方がよいと思います。
（R言語は上記の「スクレーピング」行為とは無関係ですので、タイトル末尾の(R)やRのタグは削除した方が誤解されなくてよいと思います。）

2Like

Comments

@nak435
PDFファイルを見つけました。1ファイルに85編入っています。
（チューリッヒ工科大学？）
@sawata0324
Questioner
上巻ではスクレーピングについてふれていなかったので一度スクレーピングについて調べてみて時間がかかりそうなら手動で行おうかと思います！
丁寧に長文で回答ありがとうございます！！！
pdfも使わせていただきます！！！

Are you sure you want to delete the question?

複数のテキストデータをファイルにダウンロードしたい(R)

解決したいこと

2Answer

Comments

Comments

Your answer might help someone💌