sawata0324
@sawata0324 (Sawata)

Are you sure you want to delete the question?

If your question is resolved, you may close it.

Leaving a resolved question undeleted may help others!

We hope you find it useful!

複数のテキストデータをファイルにダウンロードしたい(R)

解決したいこと

85のテキスト論文をファイルにダウンロードしたいです。
社会科学のためのデータ分析入門(下)という教材を元に学習しています。
言語はRを使用しています。

https://guides.loc.ggov/federalist-papers/full-text
上記のサイト(アメリカ議会図書館)にある85の論文テキストデータをドキュメントに作成したフォルダ「federalist」にダウンロードするにはどうすればよいでしょうか。
ファイル名はfpXX.txtとし、XXは論文番号(01等)が入ります。

ダウンロードボタンも見当たらず、スクレーピングもうまくいっていません。
元々教材の通りに進めるのですが、スクレーピングの記述がなくchatGPT4に聞いてもよくわかりません。

この作業を行った後は以下のコードのdocumentの出力が85になるはずです。

##パッケージの読み込み
install.packages("tm")
install.packages("SnowballC")
library(tm , SnowballC)
##未加工のコーパス(テキストの集合)を読み込む。
corpus.raw <- VCorpus(DirSource(directory = "federalist", pattern = "fp"))
corpus.raw

教材内容のさらなる詳細は以下のURLから確認できます。
もしかしたらスクレーピングをするというのも私の解釈違いなのかもしれません。
https://rstudio-pubs-static.s3.amazonaws.com/845531_893e6ed12ebe451d9324b74401167570.html#%E3%82%B6%E3%83%95%E3%82%A7%E3%83%87%E3%83%A9%E3%83%AA%E3%82%B9%E3%83%88%E3%81%AE%E8%91%97%E8%80%85%E3%82%92%E3%82%81%E3%81%90%E3%82%8B%E8%AB%96%E4%BA%89

0

2Answer

https://guides.loc.gov/federalist-papers/full-text
正しいURLはこれかな
教材も見たが、この教材自身がスクレイピングのやり方を教えてくれるわけではなさそう
つまり、自分の力でスクレイピングをやらなければならないようだ
教材を進めるためには、Beautiful Soupの使い方を覚えるか、手動でサイトからテキストをコピーして85個のファイルを作る必要がある

2Like

Comments

  1. @sawata0324

    Questioner

    URLはその通りです!
    BeautifulSoupについて調べてみます!
    だめなら主導でやってみます!
    回答ありがとうございます!

上記のサイト(アメリカ議会図書館)にある85の論文テキストデータをドキュメントに作成したフォルダ「federalist」にダウンロードするにはどうすればよいでしょうか。
ファイル名はfpXX.txtとし、XXは論文番号(01等)が入ります。
ダウンロードボタンも見当たらず、スクレーピングもうまくいっていません。

このサイトを見てみましたが、全85編のデータは、全10ページのWebページに別れて、各ページに10編づつ(最終ページは5編)表示されますが、HTML上はその内容テキストが展開されているので、該当部分だけをダウンロードすることはできません。そこで「スクレーピング」ということでしょうが、HTMLの知識やPythonなどの言語知識が無いと簡単ではありません。

一方、後半のリンク「経営のための統計学II『第12回 テキスト・データ分析1』」では、『85篇の論文は、アメリカ議会図書館のウェブサイトからスクレープ (収集)され、fpXX.txt として保存されている。』と書いてあり、過去にすでに行われていると読み取れます。もし、著者や過去にこの課題に取り組まれた方とつながりがおありなら、そちらに所在をお聞きになった方が早いです。

もしご自身で全85編のデータをテキストファイル化するのならば、「スクレーピング」ではなく、Webページから手動でコピペをやられた方がずっと早いと思います。高々85ですから(数百〜千なら別ですが)。

それと、質問の後半のR言語によるデータ分析についてですが、これは、fpxx.txtを入手してからの話ですので、このQ&Aとは別に新たなQ&Aとして投稿される方がよいと思います。
(R言語は上記の「スクレーピング」行為とは無関係ですので、タイトル末尾の(R)Rのタグは削除した方が誤解されなくてよいと思います。)

2Like

Comments

  1. PDFファイルを見つけました。1ファイルに85編入っています。
    (チューリッヒ工科大学?)

  2. @sawata0324

    Questioner

    上巻ではスクレーピングについてふれていなかったので一度スクレーピングについて調べてみて時間がかかりそうなら手動で行おうかと思います!
    丁寧に長文で回答ありがとうございます!!!
    pdfも使わせていただきます!!!

Your answer might help someone💌