はじめに
こんにちは!Web会議での言語の壁、なんとかしたいですよね。特に、自分の意見を外国語でスムーズに伝えたい場面であったり、専門用語や微妙なニュアンスが伝わらなかったり、質問をしたいけれど他の言語で整然と伝えたい場面など、本当にもどかしく感じます。
私は、ChatGPTの音声認識・翻訳機能の精度が非常に高く、これを使えばかなり実用的なリアルタイム翻訳ができるのでは?と考えました。さらに、特定のタスクに特化したカスタムGPTを使えば、より目的に合った高精度な翻訳が期待できます。
そこで今回は、iOSデバイスを2台使い、1台目で自作のカスタムGPT「音声翻訳GPT(日英)」(試作品)に自分の日本語発言を英語へ翻訳させ、その英語音声をもう1台のiOSデバイス経由でWeb会議(Zoom/Teams/Meet等)に流し込むシステムを構築してみました。iPhoneやiPadはそもそも音声認識の精度が他よりも高いように感じており、入力インターフェースとして最適と考えました。この記事では、その具体的な方法、特に音声接続のキモとなるケーブル類の選び方やカスタムGPTの利用、ChatGPTの動作モードによる違いなどを共有します。
iPhoneやiPadを除くと、追加で購入しないといけないのはオーディオケーブルとアダプタ・オーディオスプリッタで、Apple純正品を買ったとしても合計で5,000円以内で済むと思います。
パーソナル通訳機としては結構コスパが良いし、自分のChatGPT環境で通訳させるので情報管理もできるし、何を話したのかテキストで残るのでメモ代わりにもなります!
実現したいこと:AI通訳(カスタムGPTs)による翻訳音声をWeb会議室に流し込みたい
目指すのは以下の流れです。
- 私が 1台目のiOSデバイス(翻訳用) に向かって日本語で発言する。
- 翻訳用デバイス上の 自作カスタムGPT「音声翻訳GPT(日英)」 が、私の日本語をリアルタイムで英語に翻訳する。
- カスタムGPTが出力する翻訳後の英語音声を、物理ケーブル経由で2台目のiOSデバイス(会議用)のマイク入力として取り込む。
- 会議用デバイスで参加しているWeb会議アプリが、その英語音声を拾い、会議の他の参加者に向けて発信する。
これにより、私の日本語発言の直後に、通訳者(自作カスタムGPT)がその内容を英語で会議参加者に伝えてくれる状況を作り出します。
システム構成と接続方法
-
デバイス:
-
iOSデバイス × 2台: iPhone/iPadの任意の組み合わせ。必ずしも最新機種である必要はなく、私が実際に試したのはiPad Air (第5世代)とiPhone 8という、やや古いデバイスの組み合わせですが、問題なく動作しました。(音声認識精度が概して高いiOSデバイスの利用を推奨。Androidはちょっと精度が低い気がする)
- 1台目: 翻訳用デバイス (例: iPad Air 5th gen)
- 2台目: 会議用デバイス (例: iPhone 8)
-
iOSデバイス × 2台: iPhone/iPadの任意の組み合わせ。必ずしも最新機種である必要はなく、私が実際に試したのはiPad Air (第5世代)とiPhone 8という、やや古いデバイスの組み合わせですが、問題なく動作しました。(音声認識精度が概して高いiOSデバイスの利用を推奨。Androidはちょっと精度が低い気がする)
-
アプリ:
-
ChatGPT公式アプリ (翻訳用デバイス) 上で動作する 自作カスタムGPT「音声翻訳GPT(日英)」
- 私が試作したGPTsはこちら: https://chatgpt.com/g/g-fAoKyM6Cu-yin-sheng-fan-yi-gpt-ri-ying
- (注意: カスタムGPTsの利用にはChatGPT Plus等の有料プランが必要な場合があります)
- 任意のWeb会議アプリ (会議用デバイス)
-
ChatGPT公式アプリ (翻訳用デバイス) 上で動作する 自作カスタムGPT「音声翻訳GPT(日英)」
-
接続(音声ルーティング):
- デバイス同士を物理ケーブルで接続することにより、翻訳用デバイスのカスタムGPTが出力する英語音声を、会議用デバイスにマイク入力。
接続手順(物理ケーブル接続)
1. 必要なもの:
-
Apple純正 3.5mmヘッドフォンジャックアダプタ × 2個:
- 翻訳用・会議用デバイスそれぞれに必要(ヘッドフォンジャックがない場合)。Lightning/USB-C用。
-
オーディオスプリッター(4極/CTIA規格) × 1個:
- イヤホンジャック(3.5mm TRRS)をマイク入力(メス)とイヤホン出力(メス)に分岐するもの。翻訳用・会議用デバイス両方のアダプタに接続します。
-
【注意】抵抗入り オーディオケーブル (3.5mmステレオミニプラグ - 3.5mmステレオミニプラグ) × 1本:
- これが無いとiOSデバイスが外部マイク入力として正しく認識しないことが多いです! 必ず「抵抗入り」を選んでください。
私が利用したケーブルやアダプタは以下のとおり。(Yodobashi直リンク)
- JVC ジェイブイシー ステレオミニプラグ-ステレオミニプラグ 1.5m CN-204A オーディオコード(https://www.yodobashi.com/product/000000721756010507/)
- エレコム ELECOM AV-35AD02BK [ヘッドセット用 Φ3.5mm変換ケーブル ブラック](https://www.yodobashi.com/product/100000001002598198/)
- アップル Apple Lightning - 3.5mmヘッドフォンジャックアダプタ MMX62J/A(https://www.yodobashi.com/product/100000001003244852/)
- アップル Apple USB-C 3.5mmヘッドフォンジャックアダプタ MU7E2FE/A(https://www.yodobashi.com/product/100000001004147316/)
2. 接続:
-
翻訳用デバイス(1台目):
- ヘッドフォンジャック(またはApple純正アダプタ経由)に、抵抗入りオーディオケーブルの一方の端を接続します。(これで翻訳音声が出力されます。スプリッターのマイク入力側はここでは使いません)
-
会議用デバイス(2台目):
- ヘッドフォンジャック(またはApple純正アダプタ経由)に、2つ目のオーディオスプリッターを接続します。
- そのスプリッターの**「マイク入力」側(マイクのアイコンが付いている方)**に、抵抗入りオーディオケーブルのもう一方の端を接続します。(これで翻訳音声がマイク入力されます)
- (任意) 会議用デバイス側のスプリッターの「イヤホン出力」側にイヤホンを接続すれば、会議の音声を聞くことができます。
3. 音声レベル調整:
- 翻訳用デバイスの出力音量と、会議用デバイス側のマイク入力レベルを適切に調整。
【注意点】 抵抗入りのオーディオケーブルを使用することが、会議用iOSデバイスに外部マイク(=翻訳音声)を正しく認識させるための鍵です。
カスタムGPT側の設定と動作モード
翻訳用デバイスで「音声翻訳GPT(日英)」を使用します。カスタムGPTなので、基本的な役割(日英翻訳)は組み込まれていますが、以下のような簡単な指示から開始できます。
【重要】ChatGPTの動作モードについて
ChatGPTアプリの音声機能にはいくつかのモードがあるようですが、私が試した限りでは以下の傾向がありました。
-
Advanced Voice Mode (高度な音声モード?):
- メリット: 翻訳音声が出力されるまでのタイムラグが非常に短い。ほぼリアルタイムに近い感覚。
- デメリット: 私の環境では、動作が不安定になることがありました(途中で応答がなくなるなど)。
-
通常の音声モード:
- メリット: 動作が比較的安定している。
- デメリット: 発話完了から翻訳音声が出力されるまでに数秒のタイムラグが発生する(逐次通訳としては標準的な範囲)。
安定性を重視する場合、現状では通常の音声モードでの利用をお勧めします。
ChatGPTの新しいセッションで音声入力を始めるとAdvanced Voice Modeが開始されますが、一旦何かテキストでのコミュニケーション(例:「これからあなたは優秀な通訳として日本語と英語、双方向の通訳をしてください」と入力)を行うとAdvanced Voice Modeがオフになり、通常の音声モードが動くようになります。
Web会議での運用フロー:自分の声は送らず、翻訳音声だけを送る
自分の日本語の生声は会議に送らず、ChatGPTが翻訳した英語音声だけを相手に届けるための手順です。ミュート操作が煩雑になる場合はミュートにしないで利用しても良いかもしれません。
- 準備: 会議用デバイス(2台目)のWeb会議アプリのマイクをミュートにしておきます。
- 発言: 翻訳用デバイス(1台目)のカスタムGPTの音声入力をオンにし、デバイスに向かって日本語で話します。
- 翻訳待ち: 話し終えたら、カスタムGPTが翻訳を開始するのを待ちます。
- 音声送信: カスタムGPTが英語の翻訳音声を話し始めたら、会議用デバイス(2台目)のマイクミュートを解除します。これで翻訳音声が会議に流れます。
- 送信完了: カスタムGPTが英語を話し終えたら、会議用デバイスのマイクを再びミュートします。
実際に使ってみた感想・評価
- デバイス互換性: iPad Air (第5世代)とiPhone 8というやや古めの機体を利用しても問題なく動作しました。
- 翻訳精度: 自作カスタムGPTを使用したことで、目的に特化した翻訳が期待でき、意図した内容が伝わりやすかったです。プロンプトで専門性を持たせたり、Knowledgeに参照ファイルを登録すれば、分野特化型の翻訳も大丈夫だと思います。実際に科学論文を読み込ませて特定分野の知識を与えたらその分野の専門家として通訳してくれました。
- リアルタイム性(遅延): 使用する動作モードによって体感が異なります。安定性を取るなら通常の音声モード(遅延あり)、速度を求めるならAdvanced Voice Mode(不安定リスクあり)という選択になりそうです。通常の音声モードの遅延でも、逐次通訳としては十分機能しました。
- ケーブル接続の確実性: 抵抗入りケーブルと適切な接続により、問題なく翻訳音声を会議用デバイスのマイク入力として認識させることができました。これが最大のポイントかもしれません。
- メリット: なんといっても、外国語が苦手でも、手持ちのiOSデバイスで自分の意見を発信できる手軽さとパワフルさです。
- 課題と工夫: ミュート操作の慣れ、発話の区切り方、誤認識・誤翻訳のリスクへの備えは引き続き必要です。
応用・今後の展望
- カスタムGPTの改善: 翻訳精度や応答スタイルを、さらに自分の好みや用途に合わせてGPT側でチューニングしていくことが可能です。
- 言語の拡張: 同様の考え方で、他の言語ペアに対応するカスタムGPTを作成することも考えられます。また日本語と英語といった1対1対応ではなく、日本語・英語・中国語・フランス語・・・といった複数言語をまとめて順番に出力するということも可能です。ただ、通訳した音声の出力に時間がかかってしまいますが。
まとめ
iOSデバイス2台、適切なケーブル類(特に抵抗入りオーディオケーブルは必須!)、そして自作カスタムGPTを活用することで、自分の発言をリアルタイムで英語に翻訳し、Web会議に流し込むシステムを構築できました。
ChatGPTの動作モード選択や運用上の工夫は必要ですが、比較的身近なデバイスで実現できる、言語の壁を越えるための強力なパーソナル通訳環境です。ChatGPTでOpt-Outしておけば、情報漏洩防止にも繋がります。
意外に気づきにくい「抵抗入りケーブル」の存在と、具体的な接続方法が、これから試される方にとって重要な情報となれば幸いです。
この記事が、皆さんのチャレンジの参考になれば嬉しいです。