はじめに
最近公開されたChatGPTとWhisperを用いて以前作成した会議の議事録作成アプリ、会議の音声データから要約文を作成するアプリの改良版を作ってみました。また実際開発していてそれぞれのAPIのオプションについての記事も投稿したので以下のリンクからご覧ください
目次
- 会議の議事録作成アプリを作成に至った経緯
- 以前のアプリの構成
- 改良版アプリの構成
会議の議事録作成アプリを作成に至った経緯
会議は多くの場合、情報共有や意思決定のための重要な場ですが、時間が限られているため、参加者が話した内容を全て把握することは難しいことがあります。特に長時間の会議や多人数の参加者がいる場合は、その課題はより深刻となります。そこで、会議の音声データから自動で要約を行うアプリを作ることで、参加者が話した内容を短時間で把握することができ、参加していない人たちにも会議の内容を把握してもらえます。また、会議に限らず、講義やインタビューなど、様々な場面で活用が期待されます。
以前のアプリの構成
以下のような構成で以前作成しました。
cognitive serviceとは
cognitive serviceとは、Microsoft社が提供するクラウド上のAPI(Application Programming Interface)群で、自然言語処理、音声認識、画像認識、機械翻訳、感情分析などの人工知能技術を利用して、アプリケーションの開発やビジネスの業務改善を支援するものです。
text-davinci-003とは
text-davinci-003とは、OpenAIが提供する自然言語処理のための言語モデルの1つで、自然言語での文章生成や翻訳、文章の質問応答など、様々なNLPタスクに使用することができます。特に、高度な文章生成や文章要約、文章の類似性判定などのタスクに優れた性能を発揮します。
改善点
- 音声データはwavフォーマットのみ対応
- 音声データの長さ分、処理時間がかかってしまう
改良版アプリの構成
改良版の構成は以下の通り
Whisperとは
Whisperとは、自動音声認識(ASR)システムであり、インターネット上から収集された680,000時間の多言語でマルチタスクな監視データに基づいてトレーニングされています。この多様なデータセットにより、Whisperはアクセント、バックグラウンドノイズ、テクニカル言語に対してより頑健になり、複数の言語でのトランスクリプションや翻訳を可能にする多言語対応のASRシステムとなっています。
##gpt-3.5-turboとは
gpt-3.5-torboとは、既存の「GPT-3.5」よりもGPT-3モデルより10倍安く、価格は1,000トークンあたり0.002ドルです。
また、チャット以外の多くのユースケースに最適なモデルです。プロンプトにわずかな調整を加えるだけで、text-davinci-003 から gpt-3.5-turbo に移行することができます。
特徴
- 音声データフォーマットは、mp3, m4a, wav対応可能
- 処理時間を1/36に短縮
また開発するにあたってそれぞれのAPIに様々なオプションがあったので、別の記事でそれぞれのオプションの仕様についてまとめてみました。
実際作成したアプリのコードは、githubに乗せています