More than 3 years have passed since last update.

[随時更新]Microsoft Teamsでweb会議中にリアルタイム書き起こし（日本語）機能がリリースされたのでまとめてみた

Last updated at 2021-09-10Posted at 2021-09-05

Teamsでweb会議中にリアルタイム書き起こし（日本語）機能がリリースされたのでまとめた

変更履歴

20210905 初版公開

背景

Teamsでは、2021年の4月に書き起こし機能がリリースされた。
当時は、英語のみだった。
2021年8月31日に、多言語対応が正式にリリースされた。
その制約、使い方、活用イメージ、期待することをまとめた。

必要条件

必要条件
- スケジュールされた会議
- インストール型のTeams
- 対象Officeライセンス：Office 365 E1、Office 365 A1、Office 365 / Microsoft 365 A3、Office 365 / Microsoft 365 A5、Microsoft 365 F1、Office 365 / Microsoft 365 F3、Microsoft 365 Business Basic、Microsoft 365 Business Standard、 Microsoft 365 Business PremiumSKU
以下はできないよ
- チャンネルでの会議
  - roadmap上は、9月リリース予定（https://www.microsoft.com/ja-jp/microsoft-365/roadmap?filters=&searchterms=81809）
- ブラウザでの参加
  - roadmap上は、9月リリース予定（https://www.microsoft.com/ja-jp/microsoft-365/roadmap?filters=&searchterms=84003）
- 「今すぐ会議」での会議
  - roadmap上は、9月リリース予定（https://www.microsoft.com/ja-jp/microsoft-365/roadmap?filters=&searchterms=81808）
- DoDテナント
  - roadmap上は、9月リリース予定（https://www.microsoft.com/ja-jp/microsoft-365/roadmap?filters=&searchterms=82838）

やり方

Teamsで会議をスケジュールする。
いきなりトランスクリプションをONにしても、日本語に対応してくれない（2021年9月現在）。なのでライブキャプションから言語設定を変更する。
ライブキャプションをONにする。
文字の書き起こし（英語）が始まったら、下の言語設定から日本語を選択する。
更新
トランスクリプションの開始
書き起こしされる
会議終了後（ファイルはどこへ行く？）
- 会議参加者のチャットに、書き起こしテキスト（.vtt形式）と、録画をしていれば録画の動画が表示される
- 書き起こしをクリックすると、完全に話者分離された状態（Teams用語的には、Speaker Attribution。音響特徴からの話者分離ではなく、参加者ごとの音声入力による分離）で表示できる。下記例は一人だけ。
- 定例会など、会議が複数に渡る場合は、日付ごとに履歴を見ることができる（便利すぎる）。
- wordファイル形式か、vttファイル形式でダウンロードできる。
- これは、会議の参加者は誰でもダウンロードできる（今のところこの公開範囲に関するポリシー制御は不可能）。
- wordファイルの場合（最悪にみづらい）
- .vttファイルの場合（分析にかけやすい、最高）
- 書き起こしファイルの実態は、Exchange Onlineに保存される。
- ちなみに会議の録画は、録画を開始した人のonedriveに格納されて、他の参加者へは共有という形になる（以前はMicrosoft Streamだったが、8/16からSharepointに切り替わっているので注意）。

これって何が嬉しいの？

speech to text（音声文字書き起こし）と、auto speaker recognition（話者認識）が、現在Teamsを使っているテナントならサードパーティ製のソフトをいれなくてもすぐに行えるようになった。従来は有償製品を導入しないといけなかったので、これは大きい。
会議の文字起こしができるようになると、議事録の作成効率が大きく向上する。
この会議何話したっけ・・・？が、カレンダー上の会議をクリックするとすぐに振り替えれる。
例）例えば、この会議をダブルクリックすると
こんな感じで会議情報をすぐに振り返ることができる。
会議に途中参加して来た人に、「え〜、いまはここまで説明して・・・」をやらなくても、書き起こしをみれば状況をすぐ掴むことができる。（そもそも遅れないで）
会議の分析をして、発話量の偏りや、センシティブなワードの検出、発言内容からの検索による会議のナレッジマイニングなど、いろんな有効活用ができそう。

今後に期待（こちらはroadmap上にはないが、今年リリースされる機能には含まれているので、情報更新され次第、書き加えていく）

書き起こしファイルがなんでExchangeに行くの？

せめてOneDrive、欲を言えばSharePointに保存されて欲しかった。
Exchangeからデータを取得するのは、一般的なセキュリティポリシーを敷設してるテナントでは大体厳しいのではと思う。
自動収集できれば、継続的な会議分析にまわせるのに。

自動言語検出してくれない

自動言語検出すると書いてあるのに、今のところされないので、毎回ライブキャプションをONにして言語設定をして・・・という手間が発生する。
これはいずれ解決しそう。

リアルタイムに取得できない

リアルタイムに書き起こしが取得できれば、もっといろんな活用方法が産まれそう。
例えば現在のトピック、話題の移り変わり、発話のかぶりぐらいから算出する遅延量の可視化など。

音声もリアルタイムに欲しい

ここまでできたなら、リアルタイムに音声をストリーミングで取得したい。
音声の定量的な分析をして、会議中にフィードバックできたら面白そう。
実はTeams Media Bot（参考：https://docs.microsoft.com/ja-jp/microsoftteams/platform/bots/calls-and-meetings/calls-meetings-bots-overview ）により可能なのだが、AKS前提なのでミニマムに検証しづらい。1node, 1podでやればそこまで高くないけれども。

精度は・・・いまいち？

LibriSpeechで試したわけでも、その他ベンチマークを取ったり他社製品と比較したわけではないが、あまり人間の期待値には近くない？
マイクの音質依存がかなり強い印象。しっかりマイクの近くでSNRを大きくして、かつ良いマイクを使うほど、うまく書き起こせそう（それはそうなのだけれど）。

参考リンク一覧

Teamsの日本語書き起こしが正式にアナウンスされたブログ
https://techcommunity.microsoft.com/t5/microsoft-teams-blog/what-s-new-in-microsoft-teams-august-2021/ba-p/2699200
書き起こし機能（英語）がリリースされた時のアナウンス
https://support.microsoft.com/en-us/office/view-live-transcription-in-a-teams-meeting-dc1a8f23-2e20-4684-885e-2152e06a4a8b

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up