この記事は ゆっくりテックウォッチ Advent Calendar 2025 の 6 日目の記事です。
個人開発の「ゆっくり動画スタジオ」でGitHub人気リポジトリの解説動画を自動生成しており、その分析データをもとに本記事も生成しています。
TL;DR
- 自然言語でPC・ブラウザを完全自動操作できるAIエージェント
- ByteDance発のオープンソース(Apache-2.0)、スター数19,000超え
-
npx @agent-tars/cli一発でインストール、すぐに使える
このリポジトリについて
ByteDance発のマルチモーダルAIエージェントでPCとブラウザを自然言語で操作できます。
UI-TARS-desktopは、ByteDanceが開発したマルチモーダルAIエージェントスタックです。Agent TARSとUI-TARS Desktopの2つのプロジェクトを含み、GUI操作とビジョン機能を活用してターミナル、PC、ブラウザを自然言語で制御できます。
| 項目 | 内容 |
|---|---|
| リポジトリ | bytedance/UI-TARS-desktop |
| スター数 | ⭐ 19,684 |
| 言語 | TypeScript |
| ライセンス | Apache License 2.0 |
| 作成日 | 2025-01-19 |
なぜ今注目されているのか
PC操作の自動化は、これまで複雑なスクリプトを書く必要がありました。SeleniumやPlaywrightでは要素のセレクターを指定し、プログラミングの知識が必須でした。
UI-TARS-desktopは、自然言語でPCとブラウザを完全制御できるAIエージェントです。「ホテルを予約して」と言うだけでAIが画面を認識し、実際に操作を行ってくれます。
スター推移
2025年1月にリリースされ、わずか2か月で急成長。とくに3月24日前後に大きくバズり、1日で1,600スター以上を獲得しました。その後も着実に成長を続け、現在は約19,700スターに到達しています。
主な機能・特徴
1. 自然言語でPC・ブラウザを完全自動操作
最大の特徴は、プログラミング不要で自然言語による操作指示ができること。たとえば「9月1日から6日までLAのリッツカールトンをBooking.comで予約して」と伝えるだけで、AIがブラウザを操作して予約を完了します。
Vision-Language Model(VLM)を活用し、人間が見ている画面をAIも認識。クリック位置や入力フィールドを自動で特定します。
2. ByteDance発のマルチモーダルAIエージェント
TikTokで知られるByteDanceが開発した信頼性の高いプロジェクト。UI-TARS-1.5モデルを中心に、Claude、GPT-4など複数のLLMプロバイダーに対応しています。
3. npx一発でインストール、すぐに使える
# これだけで起動可能
npx @agent-tars/cli@latest
Node.js 22以上があれば、このコマンド一発でWeb UIが起動します。面倒な環境構築は不要です。
4. ホテル予約やフライト検索も自動で完了
実際のデモでは以下のようなタスクが自動化されています:
- Booking.comでのホテル予約
- Pricelineでの航空券検索・予約
- VS Codeの設定変更
- GitHubのissue確認
技術スタック
Electron + TypeScriptでマルチモーダルAIエージェントを実装しています。
| 分類 | 技術 |
|---|---|
| 主要技術 | TypeScript, Node.js, Electron |
| フレームワーク/ライブラリ | Playwright, pnpm, Turbo, Vitest |
| インフラ | Hugging Face, VolcEngine, ModelScope |
| 連携サービス | MCP (Model Context Protocol), Chrome/Edge/Firefox |
特筆すべきは MCP(Model Context Protocol) への対応。AIと外部ツールをつなぐ標準規格で、さまざまなサービスとシームレスに連携できます。
ユースケース
ユースケース1: 業務効率化を求めるバックオフィス担当者
背景: 総務部で経費精算や予約管理を担当する田中さん。毎月の出張手配で航空券・ホテル予約に数時間を費やしている。
課題: 複数サイトを比較しながらの予約作業が面倒で時間がかかる。
解決策: UI-TARSに「9月1日から6日、LAのリッツカールトンを予約」と指示。Agent TARSがBooking.comで条件に合うホテルを検索・予約。
結果: 予約作業が数時間から数分に短縮。他の業務に集中できるように。
ユースケース2: 自動化に興味のあるソフトウェアエンジニア
背景: スタートアップで働くエンジニアの鈴木さん。日常的にSeleniumやPlaywrightでE2Eテストを書いている。
課題: 要素セレクターの変更でテストが頻繁に壊れる。
解決策: UI-TARSのGUI Agent機能で画面認識ベースの自動化を試す。自然言語で操作を指示し、セレクターに依存しない自動化を実現。
結果: メンテナンスコストが激減。新しい自動化の可能性を発見。
競合との比較
Selenium/Playwrightとの違い
| 観点 | UI-TARS-desktop | Selenium/Playwright |
|---|---|---|
| 操作指示方法 | 自然言語 | コード(セレクター指定) |
| メンテナンス性 | 画面認識で要素特定、変更に強い | セレクター変更で壊れやすい |
| 学習コスト | 自然言語で直感的 | プログラミング知識が必要 |
| 実行速度 | AI推論のオーバーヘッドあり | 高速 |
UI変更が頻繁な環境や、非エンジニアも使う自動化が必要な場合はUI-TARSが適しています。
従来のRPAツール(UiPath等)との違い
| 観点 | UI-TARS-desktop | UiPath等 |
|---|---|---|
| 価格 | オープンソース(無料) | 有料(高額) |
| 設定の容易さ | 自然言語で指示 | GUI設計ツールで設定 |
| AI機能 | マルチモーダルAI内蔵 | オプション/追加機能 |
コストを抑えたい場合や、AIネイティブな自動化を求める場合にオススメです。
始め方
# Node.js 22以上が必要
npx @agent-tars/cli@latest
# グローバルインストールする場合
npm install @agent-tars/cli@latest -g
# LLMプロバイダーを指定して起動
agent-tars --provider anthropic --model claude-3-7-sonnet-latest --apiKey your-api-key
詳細は公式ドキュメントを参照してください。
まとめ
- ByteDance発のオープンソースマルチモーダルAIエージェント
- 自然言語でPC・ブラウザを操作できる革新的なツール
- npx一発でインストールしてすぐに試せる手軽さ
GitHubでスターして、npxで今すぐ試してみましょう!
動画を配信しています
YouTubeチャンネル「ゆっくりテックウォッチ」では、GitHub の注目リポジトリをゆっくり解説しています。
この記事で紹介した UI-TARS-desktop の解説動画も公開していますので、ぜひご覧ください!
チャンネル登録よろしくお願いします!
関連リンク
この記事は AI によって自動生成されました。内容に誤りがある可能性があります。


