Pythonの学習の整理として、簡単なアプリケーションを作成してみることにした。
受験の時欲しかった、過去問などの写真を撮ると、音声ファイルに変えてくれるアプリを作成して、デプロイしてみることにした。
全体の方針として、
・画像からテキストへはGCPのGoogleCloudVisionを使用。
・テキストから音声ファイルへの変換はGCPのTexttoSpeechを使用。
・インターフェイスはpythonのStreamlitを使用する。
という感じだ。
作成したアプリのコードは以下のようになる。
また、Herokuにてデプロイしたアプリはこちらになる。
簡単に流れを言うと、GCPのAPIをそれぞれ有効化したあと、GCPのGoogleCloudVisionとText-to-Speechのクイックスタートをコピペして使う部分だけ残し、それぞれを書き加える。その後、きちんと動作するかを確かめたら、streamlitを用いて簡単なフロントエンドを作成していく。そして、動作確認後、デプロイして動作確認。修正をする。
プログラミング初心者でも調べながら2日弱で作成することが出来た。良い経験になった。
参考にしたサイトは下に貼る。
公式のドキュメント
そして、発生したトラブルの対処は下のページにある。