概要:
騒音環境下の現場アナウンスをリアルタイムで字幕化し、さらに多言語翻訳まで行うオフライン動作の支援ツールです。
背景:
本アプリは、工場など騒音が大きく、現場アナウンスが聞き取りづらい職場環境での利用を想定して開発しました。
また、現場での実運用を考慮し、ネットワークに依存しないオフライン構成を重視して設計しています。
騒音環境では、
指示が聞き取れず何度も聞き返す
誤解による作業ミスが発生する
といった課題が起こりやすくなります。
そこで本アプリでは、現場アナウンスをリアルタイムで文字起こしすることで、
会話を「見える化」し、現場でのコミュニケーション負荷を下げることを目的としています。
多言語対応:
外国人労働者とのコミュニケーション支援
近年、多国籍な人材が働く現場も増えています。
しかし、
日本語を話す指導者
日本語の聞き取りが苦手な作業者
という組み合わせでは、双方向のコミュニケーションが難しくなるケースも少なくありません。
本アプリでは、
日本語音声をリアルタイムで文字起こし
その結果を即座に翻訳
することで、日本語が話せない/聞き取りが苦手な方とも円滑に意思疎通ができるよう工夫しています。
さらに、
1つの日本語音声に対して最大4ヶ国語まで同時翻訳が可能なため、
同じ職場に複数の国籍の方がいる場合でも、それぞれの母国語で内容を確認できます。
これにより、現場でのコミュニケーションのハードルを下げることを目指しています。
コストと運用面への配慮
導入のハードルを下げるため、
本アプリで使用しているソフトウェア・モデルは すべて無料かつ商用利用可能なもの を採用し、
ランニングコストの低減を重視しました。
一方で、オフライン環境での動作を前提としているため、
ある程度高性能なハードウェアを必要とします。
以下が、本アプリの開発および動作確認を行った環境です。
動作環境(開発環境):
OS:Windows 11(64bit)
CPU:Ryzen 9 7950X
メモリ:Crucial 32GB × 2(計64GB)
GPU:NVIDIA RTX 3090(24GB)
上記は検証環境であり、必要性能の目安となります。
マザーボード:ASRock B850 LiveMixer WiFi
上記構成にて、リアルタイム文字起こしおよび翻訳処理が安定して動作することを確認しています。
使用している主なライブラリ・モデル
音声文字起こし:faster-whisper
翻訳モデル:m2m-100
いずれも MITライセンス で公開されているモデルを使用しています。
実際に利用される際は、必ず各ライブラリ・モデルのライセンス内容をご確認ください。
本アプリは各OSSライセンスに従って利用しており、モデルの再配布は行っていません。
こちらに続きの記事を公開しました。
https://qiita.com/kazuhisarico0128/items/8aee5e941017bd7338f5
