WikiExtractorの使い方が分かりません
Q&A
Closed
解決したいこと
今、fastText用の学習モデルを作成したいと思っています。
WikipediaのダンプデータからWikiExtractorを用いて文章を抽出しようとしています。
発生している問題・エラー
$ python wikiextractor/WikiExtractor.py -b 500M -o wikiextractor_output/corpus jawiki_dump/jawiki-20181020-pages-articles-multistream.xml.bz2
上記のコマンドを実行すると、以下のエラーが発生します。
python: can't open file 'wikiextractor/WikiExtractor.py': [Errno 2] No such file or directory
自分で試したこと
cd wikiextractor/
ディレクトリを変えてみたり、
pip install wikiextractor
wikiextractorをインストールして試しました。
cd wikiextractor
python setup.py
上記のコマンドを実行すると、以下のメッセージが表示されました。
Traceback (most recent call last):
File "setup.py", line 4, in <module>
from wikiextractor.WikiExtractor import version
ImportError: No module named WikiExtractor
そもそもgitからcloneしたwikiextractorフォルダの中にWikiExtractor.pyファイルが見当たらないですが、色んなサイトで
python wikiextractor/WikiExtractor.py
を実行するように書かれてあるので混乱しています…
0