目的
動画 (Webinar)の英文の文字起こしと、その自動翻訳を作成するまでの手順を試してみました。
手順
2種類あります。APIを使用したかったのですが要領を得ないので、後ほど更新予定です。
・Google Documentの音声認識機能を使う方法
・API経由で実行する方法(未完)
Google Documentの音声認識を使う
とっても簡単、誰にでもできます。
[1]サウンドの設定
[2] Google Document を準備
-
新規ファイル作成し音声の設定を行います
https://docs.google.com/document/u/0/
##Speech-to-text APIを使おう(未完)
[1] 素材の用意
1時間のmp4動画の音声を抜き出し、FLC (モノラル/16000Hz/16bit)にするものを探す。
(ffmpeg でやればよかったと今更気づく)
動画から音声の抽出
- 動画が長すぎてオンラインでは使えない
- アプリを7つ程試したけれどうまく動画と音声を分離できなかった。
- EaseUS Video Editor の使用版でmp3に書き出し
mp3 からflacへの変換 (色々試したがなかなかうまくいかず...)
- AV Audio Converter
- https://www.freac.org/
###[2] GCP環境で実行
参考:https://qiita.com/knyrc/items/7aab521edfc9bfb06625
1.GCPでSpeech-to-textのAPIを有効にする。
https://console.cloud.google.com/
https://console.cloud.google.com/apis/api/speech.googleapis.com
2. サービスアカウントを設定し、秘密キー(JSON)を作成
3. JSONキーをダウンロード
4. コンソールから JSONをアップロードし、環境変数に設定
5. Bucketを作成し、音声ファイルをアップロード
6. Python を実行。-> Python3でやりなさいエラー -> Python3で実行 ->import speechでエラー
->投げ出す
調べていたらもっと楽な方法を見つけてしまい解決せずに投げ出しましました。