@Yama_peerstaposted at 2020-09-29

WikiExtractorの使い方が分かりません

Q&A

Closed

解決したいこと

今、fastText用の学習モデルを作成したいと思っています。
WikipediaのダンプデータからWikiExtractorを用いて文章を抽出しようとしています。

発生している問題・エラー

$ python wikiextractor/WikiExtractor.py -b 500M -o wikiextractor_output/corpus jawiki_dump/jawiki-20181020-pages-articles-multistream.xml.bz2

上記のコマンドを実行すると、以下のエラーが発生します。

python: can't open file 'wikiextractor/WikiExtractor.py': [Errno 2] No such file or directory

自分で試したこと

cd wikiextractor/

ディレクトリを変えてみたり、

pip install wikiextractor

wikiextractorをインストールして試しました。

cd wikiextractor
python setup.py

上記のコマンドを実行すると、以下のメッセージが表示されました。

Traceback (most recent call last):
  File "setup.py", line 4, in <module>
    from wikiextractor.WikiExtractor import version
ImportError: No module named WikiExtractor

そもそもgitからcloneしたwikiextractorフォルダの中にWikiExtractor.pyファイルが見当たらないですが、色んなサイトで
python wikiextractor/WikiExtractor.py
を実行するように書かれてあるので混乱しています…

2Answer

@tukiyo3 posted at 2020-09-29

git clone した場合はpython setup.py installをするとよいかと思います。

使い方は以下のようにモジュールを指定するようです。

python -m wikiextractor.WikiExtractor <Wikipedia dump file>

0Like

Comments

@Yama_peersta
Questioner
wikiextractorディレクトリに移動し、
python setup.py install
を実行してみたのですが、相変わらずWikiExtractorモジュールが見つからないというメッセージが表示されます…
@tukiyo3
なるほど、その方法ではうまく行かないかもしれませんね。

@tukiyo3 posted at 2020-09-30

Ubuntu 20.04.1 では以下のように pip install で入れて動作しました。

0Like

Comments

@Yama_peersta
Questioner
$ sudo -H pip3 install wikiextractor（-Hを入れないと実行できませんでした）
→Requirement already satisfied: wikiextractor in /Library/Frameworks/Python.framework/Versions/3.8/lib/python3.8/site-packages (0.1)

$ python3 -m wikiextractor.WikiExtractor --help 2>/dev/null | head
→画像と同じ結果になりました

$ python setup.py install
→ImportError: No module named WikiExtractor
モジュールが見つからないようです…

ちなみに今、Macで試してます。何度もすみません…
@tukiyo3
pip3 install
が成功しているので、「python setup.py install」は不要です。

「python3 -m wikiextractor.WikiExtractor 〜」の使い方で利用ができると思います。
@Yama_peersta
Questioner
その使い方で出来ました！
ありがとうございました！

Are you sure you want to delete the question?

WikiExtractorの使い方が分かりません

解決したいこと

発生している問題・エラー

自分で試したこと

2Answer

Comments

Comments

Your answer might help someone💌