🛠 はじめに
製造現場や工場内は、常に機械の稼働音や作業音(騒音)に包まれています。
そんな環境下で、「指示が正確に伝わらない」「外国人スタッフとのコミュニケーションに壁がある」という課題を解決するため、完全オフラインで動作するリアルタイム文字起こし&多言語翻訳アプリを開発しました。
🏭 現場で求められる「3つの条件」
このアプリは、特に工場のような特殊な環境での利用を想定して設計しています。
耐騒音性: ノイズ除去(VAD)により、騒音下でも声を拾い上げる。
多言語対応: 日本語を即座に複数の母国語(英語、ベトナム語等)へ翻訳し、視覚的に伝える。
オフライン動作: セキュリティの厳しい工場内でも、外部ネットワークに接続せずAI処理を完結させる。
🏗 使用した技術スタック
「欲張りな機能」を「サクサク動かす」ために、以下の強力なライブラリをマルチプロセスで組み合わせています。
音声認識 (ASR): Faster-Whisper
多言語翻訳: M2M100 (Meta)
話者分離: Pyannote.audio
音声区間検出: webrtcvad
ノイズ制御: noisereduce
GUI: Tkinter (Python標準)
💡 技術的な工夫:マルチプロセスによる安定化
AIモデルを複数同時に動かすと非常に負荷がかかります。
本アプリでは、GUIのフリーズを防ぐため、「録音」「解析」「翻訳」「話者分離」をすべて別々のプロセスで並列処理しています。これにより、低スペックな産業用PCでも安定して動作させることを目指しました。
🚀 GitHubでソースコードを公開しました
このプロジェクトの全ソースコードをGitHubで公開しています。
「似たような環境で困っている」「PythonでマルチプロセスなAIアプリを作りたい」という方の参考になれば幸いです。
リポジトリはこちら:
[https://github.com/kazuo-mieno/Realtime-Transcriber]