騒音下の工場でも指示が伝わるリアルタイム文字起こし＆多言語翻訳をオフラインAIで実現した話その２

Last updated at 2026-02-18Posted at 2026-02-18

🛠 はじめに
製造現場や工場内は、常に機械の稼働音や作業音（騒音）に包まれています。
そんな環境下で、「指示が正確に伝わらない」「外国人スタッフとのコミュニケーションに壁がある」という課題を解決するため、完全オフラインで動作するリアルタイム文字起こし＆多言語翻訳アプリを開発しました。

🏭 現場で求められる「3つの条件」
このアプリは、特に工場のような特殊な環境での利用を想定して設計しています。

耐騒音性: ノイズ除去(VAD)により、騒音下でも声を拾い上げる。

多言語対応: 日本語を即座に複数の母国語（英語、ベトナム語等）へ翻訳し、視覚的に伝える。

オフライン動作: セキュリティの厳しい工場内でも、外部ネットワークに接続せずAI処理を完結させる。

🏗 使用した技術スタック
「欲張りな機能」を「サクサク動かす」ために、以下の強力なライブラリをマルチプロセスで組み合わせています。

音声認識 (ASR): Faster-Whisper

多言語翻訳: M2M100 (Meta)

話者分離: Pyannote.audio

音声区間検出: webrtcvad

ノイズ制御: noisereduce

GUI: Tkinter (Python標準)

💡 技術的な工夫：マルチプロセスによる安定化
AIモデルを複数同時に動かすと非常に負荷がかかります。
本アプリでは、GUIのフリーズを防ぐため、「録音」「解析」「翻訳」「話者分離」をすべて別々のプロセスで並列処理しています。これにより、低スペックな産業用PCでも安定して動作させることを目指しました。

🚀 GitHubでソースコードを公開しました
このプロジェクトの全ソースコードをGitHubで公開しています。
「似たような環境で困っている」「PythonでマルチプロセスなAIアプリを作りたい」という方の参考になれば幸いです。

リポジトリはこちら:
[https://github.com/kazuo-mieno/Realtime-Transcriber]

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up

騒音下の工場でも指示が伝わる リアルタイム文字起こし＆多言語翻訳をオフラインAIで実現した話その２

騒音下の工場でも指示が伝わるリアルタイム文字起こし＆多言語翻訳をオフラインAIで実現した話その２