More than 1 year has passed since last update.

テキストの写真を読み込んで音声ファイルにする簡単なアプリケーションの作成

Posted at 2022-11-17

Pythonの学習の整理として、簡単なアプリケーションを作成してみることにした。

受験の時欲しかった、過去問などの写真を撮ると、音声ファイルに変えてくれるアプリを作成して、デプロイしてみることにした。

全体の方針として、
・画像からテキストへはGCPのGoogleCloudVisionを使用。
・テキストから音声ファイルへの変換はGCPのTexttoSpeechを使用。
・インターフェイスはpythonのStreamlitを使用する。

という感じだ。

作成したアプリのコードは以下のようになる。

また、Herokuにてデプロイしたアプリはこちらになる。

簡単に流れを言うと、GCPのAPIをそれぞれ有効化したあと、GCPのGoogleCloudVisionとText-to-Speechのクイックスタートをコピペして使う部分だけ残し、それぞれを書き加える。その後、きちんと動作するかを確かめたら、streamlitを用いて簡単なフロントエンドを作成していく。そして、動作確認後、デプロイして動作確認。修正をする。

プログラミング初心者でも調べながら2日弱で作成することが出来た。良い経験になった。

参考にしたサイトは下に貼る。

公式のドキュメント

そして、発生したトラブルの対処は下のページにある。

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up