0
0

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?

【UI-TARS-desktop】自然言語でPC操作!ByteDance発AIエージェントで業務自動化

Posted at

この記事は ゆっくりテックウォッチ Advent Calendar 2025 の 6 日目の記事です。

個人開発の「ゆっくり動画スタジオ」でGitHub人気リポジトリの解説動画を自動生成しており、その分析データをもとに本記事も生成しています。

TL;DR

  • 自然言語でPC・ブラウザを完全自動操作できるAIエージェント
  • ByteDance発のオープンソース(Apache-2.0)、スター数19,000超え
  • npx @agent-tars/cli 一発でインストール、すぐに使える

このリポジトリについて

リポジトリカード

ByteDance発のマルチモーダルAIエージェントでPCとブラウザを自然言語で操作できます。

UI-TARS-desktopは、ByteDanceが開発したマルチモーダルAIエージェントスタックです。Agent TARSとUI-TARS Desktopの2つのプロジェクトを含み、GUI操作とビジョン機能を活用してターミナル、PC、ブラウザを自然言語で制御できます。

項目 内容
リポジトリ bytedance/UI-TARS-desktop
スター数 ⭐ 19,684
言語 TypeScript
ライセンス Apache License 2.0
作成日 2025-01-19

なぜ今注目されているのか

PC操作の自動化は、これまで複雑なスクリプトを書く必要がありました。SeleniumやPlaywrightでは要素のセレクターを指定し、プログラミングの知識が必須でした。

UI-TARS-desktopは、自然言語でPCとブラウザを完全制御できるAIエージェントです。「ホテルを予約して」と言うだけでAIが画面を認識し、実際に操作を行ってくれます。

スター推移

スター推移グラフ

2025年1月にリリースされ、わずか2か月で急成長。とくに3月24日前後に大きくバズり、1日で1,600スター以上を獲得しました。その後も着実に成長を続け、現在は約19,700スターに到達しています。

主な機能・特徴

リポジトリフィーチャーカード

1. 自然言語でPC・ブラウザを完全自動操作

最大の特徴は、プログラミング不要で自然言語による操作指示ができること。たとえば「9月1日から6日までLAのリッツカールトンをBooking.comで予約して」と伝えるだけで、AIがブラウザを操作して予約を完了します。

Vision-Language Model(VLM)を活用し、人間が見ている画面をAIも認識。クリック位置や入力フィールドを自動で特定します。

2. ByteDance発のマルチモーダルAIエージェント

TikTokで知られるByteDanceが開発した信頼性の高いプロジェクト。UI-TARS-1.5モデルを中心に、Claude、GPT-4など複数のLLMプロバイダーに対応しています。

3. npx一発でインストール、すぐに使える

# これだけで起動可能
npx @agent-tars/cli@latest

Node.js 22以上があれば、このコマンド一発でWeb UIが起動します。面倒な環境構築は不要です。

4. ホテル予約やフライト検索も自動で完了

実際のデモでは以下のようなタスクが自動化されています:

  • Booking.comでのホテル予約
  • Pricelineでの航空券検索・予約
  • VS Codeの設定変更
  • GitHubのissue確認

技術スタック

Electron + TypeScriptでマルチモーダルAIエージェントを実装しています。

分類 技術
主要技術 TypeScript, Node.js, Electron
フレームワーク/ライブラリ Playwright, pnpm, Turbo, Vitest
インフラ Hugging Face, VolcEngine, ModelScope
連携サービス MCP (Model Context Protocol), Chrome/Edge/Firefox

特筆すべきは MCP(Model Context Protocol) への対応。AIと外部ツールをつなぐ標準規格で、さまざまなサービスとシームレスに連携できます。

ユースケース

ユースケース1: 業務効率化を求めるバックオフィス担当者

背景: 総務部で経費精算や予約管理を担当する田中さん。毎月の出張手配で航空券・ホテル予約に数時間を費やしている。

課題: 複数サイトを比較しながらの予約作業が面倒で時間がかかる。

解決策: UI-TARSに「9月1日から6日、LAのリッツカールトンを予約」と指示。Agent TARSがBooking.comで条件に合うホテルを検索・予約。

結果: 予約作業が数時間から数分に短縮。他の業務に集中できるように。

ユースケース2: 自動化に興味のあるソフトウェアエンジニア

背景: スタートアップで働くエンジニアの鈴木さん。日常的にSeleniumやPlaywrightでE2Eテストを書いている。

課題: 要素セレクターの変更でテストが頻繁に壊れる。

解決策: UI-TARSのGUI Agent機能で画面認識ベースの自動化を試す。自然言語で操作を指示し、セレクターに依存しない自動化を実現。

結果: メンテナンスコストが激減。新しい自動化の可能性を発見。

競合との比較

Selenium/Playwrightとの違い

観点 UI-TARS-desktop Selenium/Playwright
操作指示方法 自然言語 コード(セレクター指定)
メンテナンス性 画面認識で要素特定、変更に強い セレクター変更で壊れやすい
学習コスト 自然言語で直感的 プログラミング知識が必要
実行速度 AI推論のオーバーヘッドあり 高速

UI変更が頻繁な環境や、非エンジニアも使う自動化が必要な場合はUI-TARSが適しています。

従来のRPAツール(UiPath等)との違い

観点 UI-TARS-desktop UiPath等
価格 オープンソース(無料) 有料(高額)
設定の容易さ 自然言語で指示 GUI設計ツールで設定
AI機能 マルチモーダルAI内蔵 オプション/追加機能

コストを抑えたい場合や、AIネイティブな自動化を求める場合にオススメです。

始め方

# Node.js 22以上が必要
npx @agent-tars/cli@latest

# グローバルインストールする場合
npm install @agent-tars/cli@latest -g

# LLMプロバイダーを指定して起動
agent-tars --provider anthropic --model claude-3-7-sonnet-latest --apiKey your-api-key

詳細は公式ドキュメントを参照してください。

まとめ

  • ByteDance発のオープンソースマルチモーダルAIエージェント
  • 自然言語でPC・ブラウザを操作できる革新的なツール
  • npx一発でインストールしてすぐに試せる手軽さ

GitHubでスターして、npxで今すぐ試してみましょう!


動画を配信しています

YouTubeチャンネル「ゆっくりテックウォッチ」では、GitHub の注目リポジトリをゆっくり解説しています。

この記事で紹介した UI-TARS-desktop の解説動画も公開していますので、ぜひご覧ください!

チャンネル登録よろしくお願いします!


関連リンク


この記事は AI によって自動生成されました。内容に誤りがある可能性があります。

0
0
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
0
0

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?