ChatGPTのAPIで議事録作成してハマったところ

Posted at 2023-12-04

こんにちは！ QualitySolution本部でソフトウェアテストを担当している@hakumai_です。

みんさま、生成AIのChatGPTは活用されていますか？
2022年11月にリリースされ、瞬く間に広がっていったことは記憶に新しいですが、特に「卓越した自然言語処理能力」は、グローバル開発の分野での課題解決や効率化の可能性を大いに感じさせます。

というわけで、今年は業務のスキマ時間でちょこちょこ触っておりましたので、やってみてわかったことや、思わぬ躓きポイントの概要をご紹介したいと思います。
追って、詳細な記事を書いていく予定です。

グローバル開発における活用

国境を越えたチームでプロジェクトを進める「グローバル開発」は、今や一般的な手法となっていますが、異なる国のメンバーとのコミュニケーション課題が生じるケースもあるでしょう。
これらの課題解決にはChatGPTの「自然言語生成能力」活かせると感じており、具体的には以下のような用途で役立つと考えています。

翻訳
文書の生成
要約
音声の文字起こし

グローバル開発における活用イメージ

前述の特性を活かした生産性を上げるために特に有効な活用方法はこちらです。

チャットコニュニケーション
- テキストコミュニケーションのリアルタイム翻訳
会議
- 会議のテロップ追加（＆リアルタイム翻訳）
- 議事録生成

これらが精度高くできれば、母国語が異なることによるコミュニケーション問題の多くは解消されるでしょう。
英語周りは既にこのようなソリューションがたくさんあるので、イメージがつく方もいらっしゃるのではないでしょうか。
では、なぜ手元でやろうと思ったかですが、最も欲しいベトナム語対応の実用レベルのサービスが見つからなかったからです。

実現方法、利用APIについて

音声周りの処理は以下のようなステップです。
既に優れたAPIがあるので、どんどん活用していきます。

機能	利用するAPI
音声の文字起こし	OpenAIのWisper API
テキストの翻訳	OpenAIのWisper API
テキストの要約	text-davinci-003

実装でハマったこと、挫けそうになったこと

想定外にハマったことを中心にリストします。
この記事で詳細は書きませんが、「こんなことがあるのか」と俯瞰的に知っておくだけでも違うと思います。

API課金使用上、精緻な事前見積は難しい
- 利用トークン単位の課金になっており、例えば「1時間の会議を文字起こししたらいくら掛かるのか」などの予測を立てにくい（https://openai.com/pricing）
  *上限設定しておくと安心
文字起こしの「リアルタイム性」確保が難しい
- 1時間会議の文字起こしに数時間かかるなど
- マシンスペックGPU性能も大事っぽい
文字起こしは「スピード」と「精度」がトレードオフ
- Wisper APIでは複数のサイズモデルを提供しており、性能とリソースの使用量（例：メモリや計算時間）のバランスが変わる。
- 時間をかけるほど精度の高い文字起こしができ、数時間というレベルで処理速度差が出るので悩む
会議音声をそのままテキスト化しても読みにくい、使えない
「えー」「あー」「うーん」とか議事録として不要な言葉を拾う（びっくりするくらい多い）
- →チューニングで多少解決できた
話者識別の実装は必須（だと思っている）
- 話者識別のない、のっぺりとした文字起こしデータは話の流れを読み取りにくい
- → 話者識別を実装した
会議要約の実装は必須（だと思っている）
- 会議をただテキスト化しても長すぎて読み返す気が起きない
- APIによる要約作成は有用だが、プロンプト次第で質が変わるのでここも奥深い…
ベトナム語はChatGPT泣かせかもしれない
- 地域によって言葉が結構違うのですが(日本の方言の比ではない)、標準語から外れると全く拾えない
- 略語が多いそうで日常会話が拾えない
- ベトナム語に強そうなモデルを選択するのもよい
議事録の信ぴょう性
- デフォルトのまま使っていると、ChatGPT側で文脈から読み取って「それっぽい」創作文書を追加していることがあって怖すぎた（もはやそれは議事録ではない）
- 利用モデルの教師データがYoutubeなのか「ご視聴ありがとうございました」「チャンネル登録よろしく」みたいな文言が追加されることがある
追加学習で精度を上げたいが、リスクもある
- 特定の専門用語はファインチューニングを行う
- 方言などは転移学習で既存のモデルの一部を再学習させるのが良いが、中途半端に取り組むとモデルが劣化する
- 色々試して、精度検証あるのみ

まとめ

まだ試行錯誤の中ですが、今は会議動画を特定のフォルダーに入れておけば数時間で議事録＆要約が出来上がる。というかたちで運用しています。

やはり、ChatGPTが一般化されてきた2023年はテクノロジーでグローバル開発がもっと身近になると革新した1年でした。やはり未来が楽しみですね。

今回はボリューム的に取り組みの詳細までを盛り込むことが難しかったのですが、また時間を見つけて、もう少し詳細なTips記事などを上げていきたいと思います。

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up