More than 1 year has passed since last update.

音声認識でオンライン会議の議事録自動化（Google Meet, Teams, Slack コール対応）

Last updated at 2022-05-10Posted at 2022-05-03

何がしたいのか？

コストをかけずにオンライン通話アプリでの会話の記録を取りたい。
あわよくば取れた記録をそのまま議事録として関係者に展開したい。

Speechnotes
（アクティブウィンドウ、アクティブタブじゃなくても動作し続けてくれるので便利）
VoiceMeeter
（bananaも入れてみたけどこっちで十分だった）

使用するアプリのリンクからインストーラーをダウンロードしてインストールします。
出力はVoiceMeeter Inputを指定します。
入力は物理デバイスを指定します。
VoiceMeeterのコンソールを開いてHardwareOutを指定します。
WDMの方が新しい規格のようなので、実際に音を出したいデバイスのWDMの方を選択します。
続けてHardwareInputを指定します。
いつも使っているマイクデバイスを選択します。
そのままだと自分の声がスピーカーから出てしまうので、マイクの音はVirtualOutからだけ流します。
A（MainOut）のチェックを外す
Windows起動時にアプリが自動で立ち上がるようにします。
※標準出力をVoiceMeeter Inputにしているため、アプリを起動していないと音が出ません。
Menuから「System Tray」と「Run on Windows Startup」にチェックします。

使用するアプリのリンクからSpeechnotesを開きます。
マイク入力をVoice Meeter Outputに変更します。

※設定アイコンが表示されず、変更できない場合は一度マイクアイコンをクリックしてディクテーションを開始するとアイコンが表示されると思います。
マイクから喋った自分の声とニュース動画辺りを再生してその内容がテキスト化できていれば成功です。
（最初に書いた通り、認識精度はお察しなので、今後良い方法を考えていきます）

ドネーションウェアに頼ってしまっているのがネックです。
まずは音声認識の部分を自作アプリに置き換えたい。
クラウド環境を整えたほうが良いんでしょうが、コスト面からWindowsに頼ってしまうのが良いのかなーと思ってます。
Windows頼りとなるとUWPかなー。