virtualbox,vagrant環境でWikiExtractor.pyを実行した際に出たエラーについて(初心者です)
Q&A
Closed
解決したいこと
pythonでクローリングとスクレイピングを行うための本に記載されている内容を実行したところエラーが発生しましたが、解決方法がわかりません。ご教示いただけますと幸いです。
本に記載の通り仮想環境を構築し、virtualboxとvagrantを入れています。
wikipediaのデータセットから文章を抽出する章があり、以下のコマンドをプロンプトに入力しました。
::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::
python WikiExtractor.py --no_templates -o articles -b 100M jawiki-latest-pages-articles1.xml-p1p106178.bz2
::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::
発生している問題・エラー
Traceback (most recent call last):
File "WikiExtractor.py", line 60, in <module>
from cStringIO import StringIO
ModuleNotFoundError: No module named 'cStringIO'
該当するソースコード
python WikiExtractor.py --no_templates -o articles -b 100M jawiki-latest-pages-articles1.xml-p1p106178.bz2
自分で試したこと
cStringIOのモジュールが足りないと思い、「pip install cStringIO」を実行したところ、下記のエラーが出てしまい、先に進めることができません。
raise HTTPError(http_error_msg, response=self)
requests.exceptions.HTTPError: 404 Client Error: Not Found for url: https://pypi.org/simple/cstringio/
こちららのサイトに投稿するのは初めてでして、またpython初心者、仮想環境構築なども理解不足のまま本に記載の通り進めているため、文章がつたなく理解しづらい点があるかもしれませんがご容赦いただけますと幸いです。