1
0

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?

リアルタイムAIボイスチェンジャーにおすすめのオーディオ機器を紹介する

1
Posted at

こんにちは、nadareと申します。普段はParakeet株式会社でリアルタイムAIボイスチェンジャーParavoの研究開発をしています。本記事はx Paravo Advent Calendar 2025の1つ目の記事です。普段AIボイスチェンジャーを作りながら使用しているオーディオ機器と、それを選んだ理由について紹介します。

マイク: ATR2100x-USB | 持ち運びやすくてUSBでも使える!

最初に紹介するのは ATR2100x-USB という、USB接続にも対応した単一指向性のダイナミックマイクです。

2025年現在、AIボイスチェンジャーの品質はマイクの品質に大きく左右されます。ボイスチェンジャーのソフトも様々ありますが、ハードウェアに投資しておいて損はありません。ここではこのマイクを例に、マイクを選ぶ際のポイントを紹介します。

選ぶ観点1: ノイズを拾いにくいか(型式、指向特性、ポップガード)

AIボイスチェンジャーは多くの場合、入力した音声が「何を話しているか」(音素やピッチなど)を認識し、それを別の声として再合成します。このとき、キーボードの打鍵音やマイクに息がぶつかるポップノイズなどを「誤って音声として認識してしまう」と、不要な部分まで変換されてしまいます。

最新のAIボイチェンは内部である程度のノイズキャンセリングも学習しているので、多少のノイズなら自動で補正してくれますが、それでもノイズと音声が重なると認識やピッチ推定の精度が落ち、変換品質が下がることがあります。

型式

マイクの型式は大きく「ダイナミック型」と「コンデンサ型」に分けられます。音声変換用途では、「何を話しているか」がはっきり分かれば十分であり、環境ノイズへの強さや取り回しやすさも重要です。そのため、丈夫で持ち運びしやすく、環境ノイズにも比較的強いダイナミックマイクの方をおすすめします。

指向特性

指向特性は、「どの方向からの音をどれくらい拾うか」を表します。声以外のキーボードやマウスのクリック音をできるだけ拾ってほしくないので、正面方向の音を主に拾う単一指向性(カーディオイド)のマイクがおすすめです。

ポップガード

ポップガードはマイクに息が直接ぶつかるノイズを軽減します。ポップノイズ自体はある程度はAI側で除去できますが、音声と重なると音声を認識しづらくなります。ATR2100x-USB のマイクカップは、金属メッシュとナイロンのフィルターによって息が直接当たる影響を軽減してくれます。

他にも、物理的なノイズを減らす装置としてショックマウントがあります。机や床から伝わる振動を減らす装置で、これもあると有効です。ATR2100x-USB自体にはショックマウントは内蔵されていません。

選ぶ観点2: 接続方式

マイクの接続方式も重要です。最新のリアルタイムAIボイチェンでは、ソフトウェア内の処理遅延自体は 50msecを切るものも出てきており、オーディオ入出力まわりの遅延のほうが支配的になるケースも増えています。ATR2100x-USB は XLR / USB の両対応なので、入門からステップアップまで対応しやすいマイクです。

XLR方式

XLR方式は、一般的に遅延・音質の両面で優れています。PCに接続するには、三芯のXLRケーブルでマイクとオーディオインターフェースを接続し、そのオーディオインターフェースをPCとつなぎます。外付けのオーディオインターフェースが必須になるため、持ち運びの手軽さではUSBマイクに劣ります。

USB方式

入門・日常的な用途にはUSB方式がおすすめです。オーディオインターフェースは数万円クラスのものも多く、マイク本体より高くなることもあります。手軽に導入したいならUSB接続方式にも対応したマイクのほうがリーズナブルでしょう。

無線

無線マイクにもいくつか種類があり、音声専用のワイヤレス規格を使えばかなり低遅延なものもあります。一方で、汎用的な Bluetooth では数十msec単位の遅延が発生しやすく、リアルタイムで自分の声をモニタリングしながらしゃべる用途では違和感が出ます。

リアルタイムボイチェンを変換後の音声を聞きながら使いたいのであれば、基本的には有線の接続方式をおすすめします。

選ぶ観点3: その他便利機能

ボリューム調整機能

ATR2100x-USBは手元で操作できるマイクのON/OFFのスイッチと、本体下部に音量コントロールのつまみがあります。他の人が話している際にマイクが他の人の声を拾わないようワンタッチでOFFにできると誤変換の防止につながります。

周波数特性・サンプリング周波数など

このあたりは自分で厳密に測定したわけではありませんが、リアルタイム処理を考えると、24kHz や 48kHz など、24/48 の倍数のサンプリング周波数に対応しているとリサンプリングの効率が良くなります。周波数特性も会話音声の用途であれば12kHzの音まで拾えれば十分なはずです。

オーディオインターフェース: MOTU M2 | 高音質・低遅延、現在の音量が見やすい!

私はMOTU M2 を使っています。オーディオインターフェースを複数機種で比較したわけではないのですが、「導入してみて良かった点」を中心に紹介します。

ボイチェンへのメリット: 遅延が減る

ボイチェン用途でオーディオインターフェースを導入する大きなメリットの1つが、入出力の遅延低減です。Macと異なり、Windowsはオーディオの入出力周りが整っていないので、PC内臓の標準的なオーディオデバイスを用いるtp入出力の遅延で数十msecの遅延が乗ってしまいます。ParavoはASIO対応していないのでASIO対応のオーディオデバイスの恩恵をフルに受けるわけではないですが、PCに標準ではいっているドライバを使うよりレイテンシ面で有利です。

ただ、環境によってはトータルの遅延に対して体感できるほど改善しないケースもあるので、過度の期待は禁物です。

買って良かった点: 音質が良くなる

ボイチェンとは無関係に、普段の音声・音楽再生の品質が明らかに良くなりました。WH-1000XM5を有線で繋いでいたのですが、これまでポテンシャルを十全に発揮できていなかったことに気づき愕然としました。オーディオ機器にある程度お金をかけている方であればおすすめです。

買ってよかった点: 音量調整がしやすい

AIボイチェンに入力する音声は、音量が小さすぎるとうまく変換できず、逆に大きすぎて振り切れてしまっても音声が劣化します。MOTU M2 は入力・出力の音量のメーターがフロントディスプレイに表示されるので、音量と音割れしてないかがひと目で確認できます。これにより、ボイチェンにとってちょうど良い入力音量を維持できます。

MOTU M2 を導入してからは、PC側の入力・出力ボリュームは基本 100% に固定し、オーディオインターフェース側で音量をすべて調整しています。

グースネックタイプのマイクスタンド: 口元にマイクを持っていきやすい

私は机にグースネックアームでマイクを固定して、口元にマイクを近づけています。
私が買ったのはこちらの机に固定するグースネックアームのマイクスタンドで2500円程度でした。

まとめ

AIボイチェンの品質を上げたい場合、まず投資するべきはマイクだと考えています。5,000円台くらいからでも、PC内蔵マイクや安価なヘッドセットマイクからはっきりと差が出ます。ぜひ専用マイクやオーディオインターフェースを導入して、より快適なAIボイチェン環境を整えてみてください。

1
0
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
1
0

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?