まえがき
【CPU上の実行に対応】OpenAI Whisperの高性能推論ver Whisper.cppを試してみた の続編となります。
1年以上前からチーム内ではwhisper.cppを利用してZoomやTeamsから作られる音声ファイルを元に文字起こしをし、議事録を作成しておりました。ただ、whisper.cppを利用するだけでは誤字もあるため、完璧なものはできません。そのためChatGPTを利用し、議事録を要約させたり、誤字をなくさせようと試してみました。
ただ、この試みは自チームでは受け入れられませんでした。
理由は以下の通りです。
- ChatGPTを介すると、要約されたりと、少しばかり違う内容になってしまう
- 業界用語、略語、独自用語に対応できない
- 話し言葉(口語)が書き言葉(文語)に変換されてしまう
- 顧客情報漏洩の可能性あり(AIサービス利用によるオプトアウトですら許容できない)
そのため、上記を覆せるような何か対応をできないかということで行きついたのが、文章校正(textlint)の利用です。
利用イメージ
- Jenkins上からジョブを実行し、文字起こしを実行
- 生成されたテキストファイルを確認し、ルールファイルに各自が追記適用
- 次回以降同様の誤字が出た際はルールが適用され、文章校正が自動で実行される
文章校正実行結果
下の画像は実際に文章校正を実行した際の結果ですが、ルールが適用され自動で誤字が訂正されていることが分かります。
総評
textlintの適用により、文字起こしの精度はさらに上がり、またルールを適用すればするほど完璧に近いものが出来上がることとなります。そのため、同じような課題を抱えている方は是非、textlintの利用を推奨します。
※textlintの適用方法は後日追記します。