【UI-TARS-1.5-7Bとは?】
UI-TARS-1.5-7BとはByteDance が公開した マルチモーダル GUI エージェントモデル。
スクリーンショットや画面の情報を入力すると、AI が「どこをクリックして何を入力すべきか」を推論し、まるで人間が PC を操作するかのような手順を返してくれます。
研究用途だけでなく、将来的な自動化エージェントの基盤技術として注目されています。
【実際動かしてみた】
今回は、自分のPCのスクリーンショットをColabにアップロードし、
「この画面からメモ帳を開くにはどうしたらいい?」と指示してみました。
instruction = "Open Notepad on this screen. Tell me the exact steps or clicks."

するとモデルは次のように返答しました。
1. Click on the Start button located at the bottom left corner of the taskbar.
2. In the Start menu, type "Notepad" in the search box.
3. Press Enter to open Notepad.
画面を理解して「スタートメニューから検索 → メモ帳を開く」手順を自然に説明してくれたのです。この結果から分かるように、UI-TARS-1.5-7B は単に画像を認識するだけでなく人間がどう操作すべきかを推論する力 を持っています。
Colab上では実際のクリックはできませんが、「操作計画」 を確認できるのがポイントです。
【Colabでの実行手順】
1. 必要ライブラリをインストール
!pip -q install "transformers>=4.44.2" accelerate pillow torchvision sentencepiece safetensors
2. モデルを読み込み
import torch
from transformers import AutoProcessor, AutoModelForVision2Seq
model_id = "ByteDance-Seed/UI-TARS-1.5-7B"
processor = AutoProcessor.from_pretrained(model_id, trust_remote_code=True)
model = AutoModelForVision2Seq.from_pretrained(
model_id,
device_map="auto",
torch_dtype=torch.bfloat16,
trust_remote_code=True
)
model.eval()
3. スクリーンショットをアップロード
from google.colab import files
from PIL import Image
uploaded = files.upload()
img_path = next(iter(uploaded.keys()))
image = Image.open(img_path).convert("RGB")
4. 推論を実行
instruction = "Open Notepad on this screen. Tell me the exact steps or clicks."
messages = [{"role":"user","content":[{"type":"image","image":image},
{"type":"text","text":instruction}]}]
text = processor.apply_chat_template(messages, add_generation_prompt=True)
inputs = processor(images=[image], text=text, return_tensors="pt").to(model.device)
with torch.no_grad():
out_ids = model.generate(**inputs, max_new_tokens=256, do_sample=False)
response = processor.batch_decode(out_ids, skip_special_tokens=True)[0]
print(response)
【おすすめの用途】
1. PC操作の自動化(RPA代替)
・アプリの起動、ファイル移動、コピー&ペーストなどのルーティン作業を代行
・GUIベースの自動化を自然言語で記述できる点が魅力
2. Webブラウザ操作
・検索やフォーム入力、ボタンクリックなどを手順化
・「予約サイトで検索」や「ニュース記事を開く」といったタスク自動化に活用可能
3. 教育・マニュアル作成
・PC初心者向けに「どのボタンを押すか」をAIが分かりやすく解説
・マニュアルの自動生成や操作ガイドの補助として利用
4. ソフトのUIテスト
・アプリやWebサービスの画面遷移をスクショで入力 → 期待通りの操作手順を返せるかを確認
・QA(品質保証)やテスト自動化に応用可能
5. ゲームやシミュレーション
・Minecraftやブラウザゲームの画面操作をシミュレート
・「スタートを押してゲームを始める」といった指示を理解できるかを検証
6. 研究用途
・GUIグラウンディング(UI要素を正しく認識して行動する力)のベンチマーク実験
・将来的な「汎用PCアシスタントAI」研究の足がかりに最適
【レビュー】
実際に試してみると、ただの言語モデルではなく GUI理解に特化している ことが実感できます。特に「スクショから適切なクリック手順を出す」という挙動は、未来の PC アシスタント像を想像させるものでした。
【まとめ】
・UI-TARS-1.5-7B は PC作業をAIに説明させられる新しいエージェントモデル
・Colab 上でもスクショを与えて「操作計画」を生成できる
・実際のクリックまで自動化したい場合は UI-TARS-desktop が利用可能
・用途は「業務自動化」「教育」「テスト」「研究」まで幅広い
こんにちは、だいすけです。
ぼくはフリーランス・エンジニアで、 AR や 機械学習のアプリの実装をしています。
お仕事のご相談こちらまで。
rockyshikoku@gmail.com
Core MLを使ったアプリを作っています。
機械学習関連の情報を発信しています。