LoginSignup
77
80

More than 1 year has passed since last update.

[随時更新]Microsoft Teamsでweb会議中にリアルタイム書き起こし(日本語)機能がリリースされたのでまとめてみた

Last updated at Posted at 2021-09-05

Teamsでweb会議中にリアルタイム書き起こし(日本語)機能がリリースされたのでまとめた

変更履歴

  • 20210905 初版公開

背景

  • Teamsでは、2021年の4月に書き起こし機能がリリースされた。
  • 当時は、英語のみだった。
  • 2021年8月31日に、多言語対応が正式にリリースされた。
  • その制約、使い方、活用イメージ、期待することをまとめた。

必要条件

やり方

  • Teamsで会議をスケジュールする。
  • いきなりトランスクリプションをONにしても、日本語に対応してくれない(2021年9月現在)。なのでライブキャプションから言語設定を変更する。
  • ライブキャプションをONにする。 image.png
  • 文字の書き起こし(英語)が始まったら、下の言語設定から日本語を選択する。 image.png
  • 更新 image.png
  • トランスクリプションの開始 image.png
  • 書き起こしされる
    image.png

  • 会議終了後(ファイルはどこへ行く?)

    • 会議参加者のチャットに、書き起こしテキスト(.vtt形式)と、録画をしていれば録画の動画が表示される image.png
    • 書き起こしをクリックすると、完全に話者分離された状態(Teams用語的には、Speaker Attribution。音響特徴からの話者分離ではなく、参加者ごとの音声入力による分離)で表示できる。下記例は一人だけ。
    • 定例会など、会議が複数に渡る場合は、日付ごとに履歴を見ることができる(便利すぎる)。 image.png
    • wordファイル形式か、vttファイル形式でダウンロードできる。
    • これは、会議の参加者は誰でもダウンロードできる(今のところこの公開範囲に関するポリシー制御は不可能)。 image.png
    • wordファイルの場合(最悪にみづらい) image.png
    • .vttファイルの場合(分析にかけやすい、最高) image.png
    • 書き起こしファイルの実態は、Exchange Onlineに保存される。
    • ちなみに会議の録画は、録画を開始した人のonedriveに格納されて、他の参加者へは共有という形になる(以前はMicrosoft Streamだったが、8/16からSharepointに切り替わっているので注意)。

これって何が嬉しいの?

  • speech to text(音声文字書き起こし)と、auto speaker recognition(話者認識)が、現在Teamsを使っているテナントならサードパーティ製のソフトをいれなくてもすぐに行えるようになった。従来は有償製品を導入しないといけなかったので、これは大きい。
  • 会議の文字起こしができるようになると、議事録の作成効率が大きく向上する。
  • この会議何話したっけ・・・?が、カレンダー上の会議をクリックするとすぐに振り替えれる
  • 例)例えば、この会議をダブルクリックすると image.png
  • こんな感じで会議情報をすぐに振り返ることができる。 image.png
  • 会議に途中参加して来た人に、「え〜、いまはここまで説明して・・・」をやらなくても、書き起こしをみれば状況をすぐ掴むことができる。(そもそも遅れないで)
  • 会議の分析をして、発話量の偏りや、センシティブなワードの検出発言内容からの検索による会議のナレッジマイニングなど、いろんな有効活用ができそう。

今後に期待(こちらはroadmap上にはないが、今年リリースされる機能には含まれているので、情報更新され次第、書き加えていく)

書き起こしファイルがなんでExchangeに行くの?

  • せめてOneDrive、欲を言えばSharePointに保存されて欲しかった。
  • Exchangeからデータを取得するのは、一般的なセキュリティポリシーを敷設してるテナントでは大体厳しいのではと思う。
  • 自動収集できれば、継続的な会議分析にまわせるのに。

自動言語検出してくれない

  • 自動言語検出すると書いてあるのに、今のところされないので、毎回ライブキャプションをONにして言語設定をして・・・という手間が発生する。
  • これはいずれ解決しそう。

リアルタイムに取得できない

  • リアルタイムに書き起こしが取得できれば、もっといろんな活用方法が産まれそう。
  • 例えば現在のトピック、話題の移り変わり、発話のかぶりぐらいから算出する遅延量の可視化など。

音声もリアルタイムに欲しい

精度は・・・いまいち?

  • LibriSpeechで試したわけでも、その他ベンチマークを取ったり他社製品と比較したわけではないが、あまり人間の期待値には近くない?
  • マイクの音質依存がかなり強い印象。しっかりマイクの近くでSNRを大きくして、かつ良いマイクを使うほど、うまく書き起こせそう(それはそうなのだけれど)。

参考リンク一覧

77
80
1

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
77
80