英語でのオンラインミーティングの議事録を作るのが面倒なので,オンラインミーティングの音声を,自動字幕生成の入力にしてしまい,発言をリアルタイム自動字幕で残すことを考える.
準備
- 仮想音声デバイスBlackHoleのインストール
- https://github.com/ExistentialAudio/BlackHole
- 以前にはsoundflowerがあったがもう開発されてない
- 自動英語字幕作成サービス otter.ai
- アカウント作成しておく
- 日本語の音声認識ならGoogle DocでもOK
BlackHoleのインストール,設定
- githubのreleasesからBlackHole.vx.x.x.pkgをダウンロード,インストール
- githubの説明に従って複数デバイス作成 https://github.com/ExistentialAudio/BlackHole/wiki/Multi-Output-Device
- 参考:[Mac] 仮想オーディオデバイス BlackHole Virtual Audio Driver
こうなればOK

サウンドで出力先を,作成した「複数出力装置」に設定

音声の入力先はBlackHole.

なにか動画を再生して,
- 内蔵スピーカーから音が出る
- サウンドの入力レベルが動く
ならOK
otter.aiで自動字幕
オンラインミーティングの代わりにyoutubeの動画を再生して,その音声に自動字幕をつけてみる.

動画は,OxfordSparksのWhat is Machine Learning?.ライセンスはCreative Commons.英語字幕がもともと付いているので,自動字幕と比較ができる.
以下がotter.aiの自動字幕.きれいな動画音声なので,ほぼほぼ正確.

終了
使い終わったら入力・出力デバイスを内蔵デフォルトに戻しておく.


問題
- たまに音が聞こえない.何度かデバイスを切り替えるとなぜかできる...
- たぶんマイクの音を拾わないので,聞いているだけのミーティングならOK.発言する場合には,別デバイスを使うのが早い(設定すればできそうだけど).
misc
- macの音声認識に流すときにサウンドが消えないようにする How to keep sound from muting while using dictation?