初めに
自分のCalibre Webインスタンスを設定した頃に、青空の本を集めたかったから、そのようなツールを探していました。AozoraEpub3を見つけましたが、自分のLinuxシステムにインストールできなかったので自作ツールに決めました。
とても簡単なツールであり、URLからXHTMLを変換することができます。requestモジュールがURLをデータになり、そして bs4 を使って知らないHTMLタグを除く、題名の情報を集めることができます。最後に、 ebooklib が全ての情報(作家、題名)をepubファイルになります。自分のKindleがちゃんと表示できます。
使った外部モジュールは ebooklib と bs4 だけです。
もしかして、他のサイトも変換できますが、青空文庫の本だけが試しました。
機能
-tと-yが縦書きと横書きの設定です。 デフォルトは縦書き。
-oプログラムの出力ファイルの設定です。
$ pyaozora -y -o 吾輩は猫である.epub "https://www.aozora.gr.jp/cards/000148/files/789_14547.html"
ソースコード
