はじめに
大量の文章が置いてある青空文庫は色々と遊べて楽しいのですが、サイトから直接手に入るテキストはutf-8ではなくまた《》でルビが振ってあるためすこし使いづらいです。
なのでルビを消しutf-8に変化するスクリプトを作りました。
スクリプト
aozoraEncoder.sh
#!/bin/sh
nkf -w -Lu $1 > m.txt
cat m.txt | ruby -e 'puts ARGF.read.gsub(/|/, "").gsub(/《.+?》/,"").gsub(/[.+?]/,"")'
rm -f m.txt
作成後以下を実行してください。
chmod u+x aozoraEncoder.sh
使い方
aozoraEncoder.sh input.txt > output.txt