Gibberlink Mode の概要
「Gibberlink Mode = AI エージェントが“音声モデム”で直接データをやり取りする高速・軽量プロトコル」
- 起源: 2025 年の ElevenLabs Worldwide Hackathon で発表されたペアリング & 通信モード。
- 目的: 人間経由のテキスト I/O を介さず、エージェント間で最小遅延でやり取りする。
- 特徴: スピーカーとマイクさえあればネットワーク不要、シリアルポート感覚で使える。
基本概念
-
AI 認証ハンドシェイク
- 特定キーワードで「相手が AI か」を確認。
- 両者が確認できたら Gibberlink Mode へ切替。
-
音声エンコーディング (ggwave)
- 8〜22 kHz 帯にデータを載せる OSS 音響モデム。
- 数 kbps の双方向通信。通常のスマホ/ラップトップで利用可。
-
メッセージ構造
- TLV (Type‑Length‑Value) 形式のパケット。
- ACK/NACK による再送制御でパケットロスにも対応。
どう速いのか
-
従来ループ
- 音声 → 音声認識 → テキスト
- LLM 推論
- テキスト → 音声合成
-
Gibberlink ループ
- テキスト(バイト列) → 音声(符号化)
- 直接デコード → テキスト
-
これにより 推論あたり 20〜80 % のレイテンシを削減。
主要ユースケース
- ロボット間協調: Wi‑Fi が混雑する工場での経路共有。
- オフライン初期設定: 新規デバイスへ SSID/トークンをワンタップ伝達。
- セキュアなアドホック通信: 電波ジャミング下でのフェイルオーバー経路として。
他方式との比較
特性 | Gibberlink | WebSocket | BLE GATT |
---|---|---|---|
物理層 | 音 (空気) | TCP/IP | 2.4 GHz |
到達距離 | 〜5 m(室内) | ルータ次第 | 10 m 前後 |
スループット | 3–7 kbps | 数百 kbps〜 | 10–50 kbps |
双方向同時通話 | ◎ | ◎ | △ |
追加ハード | 不要 | ネット環境 | 不要 |
デバッグ容易さ | △(可聴高域) | ◎ | ○ |
※ 音声は壁で減衰 → 安全性は状況依存。
実装ステップ(Python 例)
-
pip install ggwave elevenlabs-sdk gibberlink
-
from gibberlink import Agent
-
agent = Agent(device="mic", tts_api_key="ELEVENLABS_API_KEY")
-
agent.connect()
# キーワード送信 → ハンドシェイク -
agent.send("hello from client")
print(agent.recv())
Tips: スピーカーとマイク間はハウリングを避けるため 10 cm 以上離す。
デモ動画
-
- 0:30〜 ハンドシェイク
- 1:15〜 文字列交換
- 2:05〜 雑音下での誤り訂正デモ
メリットと課題
-
メリット
- ネットワークインフラ不要・即席通信。
- 高周波域を使うため人間には聞き取りづらい → ファンレス静音機器でも利用可。
- OSS + 標準ハードで完結。
-
課題
- データレートは低く画像・動画は非現実的。
- 高周波が苦手なマイク/スピーカーでは失敗率 ↑。
- 音響透かし検知で盗聴が可能 → 暗号化必須。
まとめと今後
- Gibberlink Mode は "空気を配線" と捉えるとわかりやすい。
- ネットワークが制限される現場やロボティクスのブリッジ手段として実用性大。
- まだ β 段階だが 「試してみる価値アリ」 の面白い選択肢。