はじめに
On device LLMに関して勉強する中で、その活用例としてスマートフォンの操作支援を考えています。今回の論文はスマートホームシステムにおいて、On device LLMを導入したユースケースに関するものです。
論文情報
タイトル: DESAMO: A Device for Elder-Friendly Smart Homes Powered by
Embedded LLM with Audio Modality
著者: Youngwon Choi, Donghyuk Jung, Hwayeon Kim
発表日: 2025.08.26
補足情報: UIST Adjunct '25: Adjunct Proceedings of the 38th Annual ACM Symposium on User Interface Software and Technologyにて発表
論文概要
Abstract
高齢者に優しいデバイス搭載型スマートホームシステムDESAMOの提案。
Audio LLMを搭載することで、従来の音声アシスタントが難しかった不明瞭な音声や声以外の音声の処理を可能に。
Audio LLMに対して生の音声を直接入力することで、ユーザーの意図をより汲み取ることができるようになり、転倒した場合や助けを求めているような場合など重要なイベントを的確に把握できるようになった。
先行研究と比べた新規性
従来の音声アシスタントは以下のような変遷をたどってきた。
-
自動音声認識(ASR)に基づく文字起こしを行い、続いて短い意図解析を行うモデル
→間接的だったり、曖昧だったりする表現の解釈が難しかった - 音声を書き起こしたものをLLMに渡すASR-LLMパイプラインを導入したモデル
→不明瞭な発音の処理や声以外の音(環境音など)の処理は書き起こす際のエラーにより難しかった
近年では、AudioChatLLaMAやQwen-Audioのような音声モダリティに拡張されたLLM(Audio LLM)が登場しており、音声と非音声(環境音など)の両方の入力から直接エンドツーエンドでの推論が可能になってきている。これにより、より柔軟で堅牢な音声解析が可能となり、中間テキスト処理が不要となった。
DESAMOはこのようなAudio LLMをベースとしており、ユーザーの声の意図解析と環境音解析からなる緊急イベント解析の2つのタスクの実行が可能となった。
またすべての処理をエッジハードウェアで処理することで、ユーザーのプライバシーを保護しつつネットワーク接続も不要となった。

システム内容・技術内容
- On deviceでのDESAMO実行
音声と環境音の両方を処理できるマルチモーダル言語モデルであるQwen2.5-Ommi 3Bを利用。
このモデルは音声解析のために、Whisper Large-v3ベースのオーディオエンコーダを利用し、生のwavファイルを意味的埋め込みに変換し、言語モデルに入力する。
システム全体はNVIDIA Jetson Orin Nano上でローカルで実行されるため、クラウドに依存しない。コンパクトなGGUF形式でパッケージ化された、16bitオーディオエンコーダと4bit言語モデルを備えた量子化モデルを利用。 - 音声意図分類
近年、関数呼び出しの進歩により、言語モデルは自然言語クエリから構造化された関数表現を生成できるようになった。
2Bから7B程度の小規模なモデルであっても、ユーザーのクエリに基づいて効果的に機能を検索・生成できることが示されている。
意図分類は関数呼び出しの一種として解釈でき、”娘に電話して”のような自然言語入力は、”Call(’娘’)”のような構造化されたコマンドにマッピングされる。
DESAMOではこのような関数呼び出しを音声領域に拡張し、ユーザーが自然な音声でコマンドを発行できるようにした。トリガーフレーズを検出すると、DESAMOは”エアコンをオンにして”のような直接的なコマンド、または”暑くなってきた”のような間接的な表現を含む短い音声セグメントを記録する。
これが意味的埋め込みに処理され、モデルにACOn()のような構造化された制御出力を生成するよう指示するプロンプトとともに意味分類パイプラインに渡される。
システム応答層はこの出力を解釈し、対応するデバイスを起動し、短い音声確認を行う。 - 緊急事態の検知
システムは短い音声セグメントを一定間隔でキャプチャすることで、周囲の音を継続的に監視する。
各間隔で、音声セグメントと検知プロンプトをAudio LLMに渡し、転倒や助けを求める叫び声など緊急事態がないか識別する。
モデルはAlert(’fall’)やAlert(’help’)のような構造化されたイベントラベルを識別し、システム応答層によって解釈され、アラートの送信や介護者への通知などがなされる。
性能評価
DESAMOを評価するために、Fluent Speech Commandsデータセットからキュレーションした300サンプルを用いてパイロットベンチマークを構築した。
65歳以上の話者をフィルタリングし、DESAMOの音声意図分類シナリオに一致するように選択した。
2つのカスケードベースライン(Whisper-large-v3 + Qwen2.5-Ommi(Text) , Whisper medium + Qwen2.5-Ommi(Text))と比較。結果は以下の通り、モデルサイズを抑えながら最も高い意図分類精度を示した。

特に以下に示した通り、カスケード型システムにおける音声認識エラーは意図の誤分類につながることがわかり、中間スクリプトへの依存を避けることで正しく処理できていることがわかった。

Fluent Speech Commandsデータは発音と録音条件の面で比較的綺麗であるため、実際の環境ではよりノイズが多くなり、よりパフォーマンスの差が出ると推測される。
なお、このシステムはプロンプトを変更することなく英語以外の音声コマンドも処理可能。
結論と今後の課題
DESAMOは高齢者ユーザーを主にサポートするためにAudio LLMを利用した組み込み型スマートホームシステム。
自然な音声ベースの制御と、重要なイベントのモニタリングにより、プライバシーを損なうことなくエッジデバイス上で堅牢なインタラクションを実現した。
このアプローチは、プライバシーやネットワークアクセスが制限されている状況において可能性を見出す。
今後の課題としては、視覚入力を活用してより豊かなコンテキスト理解を実現し、推論レイテンシー(現在は5.3s)を最適化し、応答性を向上させること。
所感
これまでの認識では、音声入力対応のLLMは認識した音声を文字起こししてそれをもとに処理をしていると思い込んでいたが、それは従来の手法であり、最新のモデルではテキストを介さずその方が性能が上がると知り驚いた。
また、本論文のようなタスク設定でどのようにベンチマークを設定するのかが疑問だったが対応するデータセットを作成しており、今後の自分の研究の参考にしたいと感じた。
参考文献の中で今後読んでみたいと感じた論文