TL;DR
-
abogenというOSSを試してみた
- EPUB, PDFを音声化して、オーディオブックを作成するツール
- Linux/Windows/MacOS、 GPU/CPUの全環境で動作
- CPUでも50ページのデータを約5分で音声データへ変換可能
- 変換された音声ファイルをスマホに転送すればSpotifyアプリから再生可能
概要
ふと、abogenというOSSがあることを知りました。
このツールを使うことで、EPUBやPDF形式の電子書籍を音声化し、オーディオブックを作成することができるとのことです。
HumbleBundleで購入した技術書が山のようにあったので、このツールを使うことで消化できるかもしれないと思い、試してみることにしました。
検証環境
Windows ミニPC(MINISFORUM UM790 Pro)で検証しました。
詳細なスペックは以下。
- OS: Windows 11
- CPU: AMD Ryzen 9 7940HS (4.00GHz)
- メモリ: 64GB
セットアップ
レポジトリのREADMEに従って、セットアップを行います。
いくつかの方法があるようですが、自分は bat
ファイルを使用したインストールを行いました。
git clone https://github.com/denizsafak/abogen.git
- クローンしたディレクトリに移動
-
WINDOWS_INSTALL.bat
を実行
これだけで、必要な依存関係がインストールされ、abogen
が使用可能になります。
(GitHubのOSSにあるまじきユーザーフレンドリーさ...ありがたい)
セットアップが完了すると、レポジトリ直下にabogen
というショートカットが生成されます。
このショートカットをダブルクリックすることで、GUIアプリを起動できます。
音声変換の実行
今回はOreillyのAI EngineeringのEPUBファイルを音声化してみることにしました。
ウィンドウ上部の領域に、音声化したいファイルをドラッグ&ドロップすると、以下のような画面になります。
書籍の章立てが自動的に認識され、左側のリストに表示されます。
ここから、音声化したい章を選択した後、OK
ボタンをクリックします。
今回はお試しということで Chapter 1. Introduction to Building AI Applications with Foundation Models
(約50ページ)を選択しました。
OK
ボタンをクリックすると、音声化の設定画面が表示されます。
今回は特に設定を変更せず、そのままStart
を押して音声化を始めました。
音声化処理が始まると、進捗バーが表示され、処理の進行状況がわかります。
音声化処理中の画面
待っていると、そのうち処理が完了し、.wav
ファイルと.ass
ファイルが生成されます。
.wav
ファイルは音声データ、.ass
ファイルは字幕データです。
音声化処理完了の画面
今回は50ページのデータを音声化したところ、約5分で21分の音声データが生成されました。
AI Engineeringの書籍全体では535ページあるので、すべてを音声化しても1時間以内に収まりそうです。
音質や発音についても全く問題なく、聞き取りやすい音声が生成されました。
(音質について気になる方はREADMEのdemoを確認してみてください)
まとめと感想
abogenを使って、積読となっていた電子書籍を音声化することができました。
インストールや操作が非常に簡単で、エンジニアでなくても手軽に使えるツールだと思います。
また、音声化の速度も非常に速く、CPUのみでも十分なパフォーマンスを発揮しました。
ただ、音声ファイルのままだと普段の生活の中で自然に聞くのは難しいように思われます(Podcastとかの体験と比較してしまうと...)。
この課題を解決するための方法についても模索していきたいと思います。
(追記)スマートフォンに音声ファイルをダウンロードして、Spotifyから再生する方法で十分でした。