Wikipediaでコーパス作る時、catコマンドを使って何百ものの文字ファイルをまとめた。
cat jawiki-latest-pages-articles.xml-* > corpus.txt
そしたらcorpus.txtが文字化けでmecabできなくなった。
たぶん犯人は文字コードかと思われる。
こういうときは
Get-ChildItem ".\" -Recurse -File -Filter "jawiki-latest-pages-articles.xml-*.txt" | Get-Content -Encoding UTF8 | Add-Content -Encoding default "corpus.txt"
で解決できる。
メモリ不足でエラー出た。
矢張り大人しくcmdでcopyコマンド使おう。
copy /b .\jawiki-latest-pages-articles.xml-*.txt corpus.txt
秒で終わります。(一分程度)
結局エンコード問題でEmeditorで文字コードをShiftJISに変換した。