Teamsでweb会議中にリアルタイム書き起こし(日本語)機能がリリースされたのでまとめた
変更履歴
- 20210905 初版公開
背景
- Teamsでは、2021年の4月に書き起こし機能がリリースされた。
- 当時は、英語のみだった。
- 2021年8月31日に、多言語対応が正式にリリースされた。
- その制約、使い方、活用イメージ、期待することをまとめた。
必要条件
-
必要条件
- スケジュールされた会議
- インストール型のTeams
- 対象Officeライセンス:Office 365 E1、Office 365 A1、Office 365 / Microsoft 365 A3、Office 365 / Microsoft 365 A5、Microsoft 365 F1、Office 365 / Microsoft 365 F3、Microsoft 365 Business Basic、Microsoft 365 Business Standard、 Microsoft 365 Business PremiumSKU
-
以下はできないよ
- チャンネルでの会議
- roadmap上は、9月リリース予定(https://www.microsoft.com/ja-jp/microsoft-365/roadmap?filters=&searchterms=81809) - ブラウザでの参加
- 「今すぐ会議」での会議
- roadmap上は、9月リリース予定(https://www.microsoft.com/ja-jp/microsoft-365/roadmap?filters=&searchterms=81808) - DoDテナント
- roadmap上は、9月リリース予定(https://www.microsoft.com/ja-jp/microsoft-365/roadmap?filters=&searchterms=82838)
- チャンネルでの会議
やり方
-
Teamsで会議をスケジュールする。
-
いきなりトランスクリプションをONにしても、日本語に対応してくれない(2021年9月現在)。なのでライブキャプションから言語設定を変更する。
-
会議終了後(ファイルはどこへ行く?)
- 会議参加者のチャットに、書き起こしテキスト(.vtt形式)と、録画をしていれば録画の動画が表示される
- 書き起こしをクリックすると、完全に話者分離された状態(Teams用語的には、Speaker Attribution。音響特徴からの話者分離ではなく、参加者ごとの音声入力による分離)で表示できる。下記例は一人だけ。
- 定例会など、会議が複数に渡る場合は、日付ごとに履歴を見ることができる(便利すぎる)。
- wordファイル形式か、vttファイル形式でダウンロードできる。
- これは、会議の参加者は誰でもダウンロードできる(今のところこの公開範囲に関するポリシー制御は不可能)。
- wordファイルの場合(最悪にみづらい)
- .vttファイルの場合(分析にかけやすい、最高)
- 書き起こしファイルの実態は、Exchange Onlineに保存される。
- ちなみに会議の録画は、録画を開始した人のonedriveに格納されて、他の参加者へは共有という形になる(以前はMicrosoft Streamだったが、8/16からSharepointに切り替わっているので注意)。
- 会議参加者のチャットに、書き起こしテキスト(.vtt形式)と、録画をしていれば録画の動画が表示される
これって何が嬉しいの?
- speech to text(音声文字書き起こし)と、auto speaker recognition(話者認識)が、現在Teamsを使っているテナントならサードパーティ製のソフトをいれなくてもすぐに行えるようになった。従来は有償製品を導入しないといけなかったので、これは大きい。
- 会議の文字起こしができるようになると、議事録の作成効率が大きく向上する。
- この会議何話したっけ・・・?が、カレンダー上の会議をクリックするとすぐに振り替えれる。
- 例)例えば、この会議をダブルクリックすると
- こんな感じで会議情報をすぐに振り返ることができる。
- 会議に途中参加して来た人に、「え〜、いまはここまで説明して・・・」をやらなくても、書き起こしをみれば状況をすぐ掴むことができる。(そもそも遅れないで)
- 会議の分析をして、発話量の偏りや、センシティブなワードの検出、発言内容からの検索による会議のナレッジマイニングなど、いろんな有効活用ができそう。
今後に期待(こちらはroadmap上にはないが、今年リリースされる機能には含まれているので、情報更新され次第、書き加えていく)
書き起こしファイルがなんでExchangeに行くの?
- せめてOneDrive、欲を言えばSharePointに保存されて欲しかった。
- Exchangeからデータを取得するのは、一般的なセキュリティポリシーを敷設してるテナントでは大体厳しいのではと思う。
- 自動収集できれば、継続的な会議分析にまわせるのに。
自動言語検出してくれない
- 自動言語検出すると書いてあるのに、今のところされないので、毎回ライブキャプションをONにして言語設定をして・・・という手間が発生する。
- これはいずれ解決しそう。
リアルタイムに取得できない
- リアルタイムに書き起こしが取得できれば、もっといろんな活用方法が産まれそう。
- 例えば現在のトピック、話題の移り変わり、発話のかぶりぐらいから算出する遅延量の可視化など。
音声もリアルタイムに欲しい
- ここまでできたなら、リアルタイムに音声をストリーミングで取得したい。
- 音声の定量的な分析をして、会議中にフィードバックできたら面白そう。
- 実はTeams Media Bot(参考:https://docs.microsoft.com/ja-jp/microsoftteams/platform/bots/calls-and-meetings/calls-meetings-bots-overview )により可能なのだが、AKS前提なのでミニマムに検証しづらい。1node, 1podでやればそこまで高くないけれども。
精度は・・・いまいち?
- LibriSpeechで試したわけでも、その他ベンチマークを取ったり他社製品と比較したわけではないが、あまり人間の期待値には近くない?
- マイクの音質依存がかなり強い印象。しっかりマイクの近くでSNRを大きくして、かつ良いマイクを使うほど、うまく書き起こせそう(それはそうなのだけれど)。