はじめに
On device LLMに関して勉強する中で、その活用例としてスマートフォンの操作支援を考えています。今回の論文はOn deviceのモデルは利用していませんが、そういったアプリを実装した内容となっておりましたので読んだメモとなっています。
論文情報
タイトル: Bridging the Digital Divide: Empowering Elderly Smartphone Users with
Intelligent and Human-Centered Design in Agemate
著者: Liangliang Chen, Yongzhen Mu
発表日: 2025.01.23
補足情報: 1st Workshop for Research on Agent Language Models (REALM 2025)にて発表
論文概要
Abstract
高齢者がより直感的にかつ効果的にスマートフォンの操作を学ぶことを補助するモバイルエージェントのプロトタイプとして、AgeMateを提案。ベースモデルとしてはOpenAIのGPT-4oを利用。
特にLLMがユーザーのミスに呼応して、より適切でユーザーライクな学習体験を提供できるよう、パーソナライズされたフィードバックを生成できるよう設計。
先行研究と比べた新規性
従来のモバイルエージェントは事前に定義されたルールやXML構造のようなシステムデータにアクセスすることによる、自動タスク実行にフォーカスしたものが主。
しかしこれではユーザーのニーズに対してインタラクティブにかつ柔軟に対応することは難しかった。
これに対してAgeMateでは、モバイルアプリの使用中にガイダンスやリアルタイムのフィードバックを表示させることで、モバイルタスク実行時のパーソナライズされた適応型のアプローチを実現した。
システム内容・技術内容
AgeMateでは、”自動実行モード”と”チュートリアルモード”の2つのモードをサポートしている。
前者はユーザーのクエリに基づくタスクを自動で実行し、後者はステップバイステップのガイダンスを提供する。本システムの中核技術は”VLMによる画面解釈”と、”それに基づく柔軟な実行モードの切り替え”にある。
- VLMによる状況認識
- 現在の画面のスクリーンショット・XML構造をキャプチャしローカルに保存する
- XMLデータを用いて、各要素に番号付きラベルを振る
- ラベル付けされたスクリーンショットをBase64にエンコード
- あらかじめ定義してあるプロンプトを実行し、XML構造とエンコードされた画像とを連結しVLMに送信
- VLMからの応答は観察・思考・行動・要約の4セクションに構造化され、それに基づき次のステップを決定する
- 観察: 現在の画面の簡潔な説明。アプリ、ページ、メインコンテンツ、主要なインタラクティブ領域、考えられるユーザーアクション
- 思考: エージェントの推論プロセス
- 行動: 特定の要素または座標コンテキストに適用され、戻る・タップ・テキスト・長押し・スワイプのいずれかの操作を指定する
- 要約: AgeMateシステムが過去のすべてのアクションを記録するための内部メモ。ユーザーには非公開
- 柔軟なチュートリアルモード
- LLMの応答を解析後、バックエンドプロセスを一時停止し、UI上に操作ガイドを表示する
-
確認・自動実行・強制の3つのボタンでユーザーが介入できるようにしている
- 確認: ユーザーがアクションを手動で実行できることを表す
- 自動実行: AgeMateにアクションを自動的に実行するよう指示
- 強制: ユーザーがシステムをオーバーライドできる
- タッチ座標を監視し、誤操作を検知すると警告を出す
- チュートリアルはユーザーの習熟度に応じて、”観察・思考・行動”、”思考・行動”、”行動”の3つのレベルで提供
- 堅牢性と適応性を高める技術
設計思想と今後の課題
本研究では具体的なユーザー評価やベンチマークなどで評価するのではなく、その設計思想の精緻さと現実的な課題への洞察によって、プロトタイプの有効性を示している。
- 設計の思想的背景
- 学習理論: 複雑なプロセスを分解してフィードバックを与える「行動主義」、認知負荷を軽減する「認知主義」、実体験を重視する「構成主義」を統合したハイブリッドな仕組みを採用
- 高齢者に配慮した設計: 設計初期から高齢者のニーズを最優先し、大きなフォント、シンプルなアイコン、高コントラストの配色などを採用
- 今後の課題
- XMLデータとスクリーンショットをアップロードすることはプライバシーリスクを伴う。これに対する既存の対策はリスク軽減には役立つものの、パフォーマンスは低下する
- アクション間には20秒もの遅延がある。主たる要因はLLM APIの呼び出し時間
- 音声認識とテキスト入力をサポートしているが、現在の音声システムは方言へのサポートが不十分
- 主にサードパーティー製のアプリにおいて前後への正確な画面遷移が難しい
所感
ユーザーのニーズに合わせて、システム側が自動でその操作を実行するのか、それともガイドを示してくれるのか動的に選択できるのは非常に良いアイデアだと感じた。
一方で、その性能を多角的に評価できるデータセットや評価指標が示されておらず、その性能については検討の余地があると感じた。
アプリUI

[Liangliang and Yongzhen, 2025]より引用
参考文献の中で今後読んでみたいと感じた論文
