インドで開催された UiPath DevCon India 2026 に参加してきたのでレポを書いていきます。今回は UI Automation 製品チームによる「Agentic UI Automation」分科会編です。
今回の焦点は ↓ の 3 つ。
- Computer Vision 2.0(Semantic Targeting の Image Mode)
- 26.10 ロードマップ(10 月リリース)
- 未来のビジョン(ランフラットタイヤ構想とコーディングエージェント連携)
GA 済みの Semantic Selectors / Semantic Activities / Screenplay は土台として軽く触れますが、本題は「ここから何が来るか」です。
目次
- セッション全体像
- 前提:今ある UI Automation スタック
- Computer Vision 2.0、来ましたよ!!
- 26.10 ロードマップ:一般 UI Automation 編
- 26.10 ロードマップ:Screenplay 専用強化
- UiPath for Coding Agents — 5 つのスキル
- 未来のビジョン — ランフラットタイヤ構想
- 要点まとめ
- おわりに
セッション全体像
登壇者は UiPath の UI Automation 製品チームのメンバーで、Computer Vision から micro agentic、そして最新の Screenplay まで一貫して AI 活用エクスペリエンスを担当してきた方です。
セッションの構成は 2025 recap → 2026 新機能 → 未来像
冒頭でスピーカーが何度も繰り返していた哲学が一つ。
「基本原則は『仕事に最もシンプルなツールを使う』ということです。」
決定論的に解ける部分は決定論的に。agency が必要な部分だけ agentic に。Deterministic + Agentic の「組み合わせ」 がすべての機能設計に貫かれていました。
ポイントは中央の プラス記号。どちらか一方ではなく、常に両方。これが本セッション全体の通奏低音です。
前提:今ある UI Automation スタック
26.10 とその先の話に入る前に、現在の UI Automation スタックをおさらい。agency(知性+自律性)と risk の 2 軸 で各機能を整理した同心円ダイアグラムが下です。
中心が 100% 決定論的な RPA、外側に行くほど agency が広がる構造。
| レイヤー | agency の範囲 | 状態 |
|---|---|---|
| RPA | なし | GA |
| Healing Agent | なし(リスクは下がる) | GA |
| Semantic Selectors | UI 要素レベル | 25.10 GA |
| Semantic Activities | Web フォームレベル | 24.10 GA |
| Screenplay | 単一アプリ・Unattended | 2025/11 GA |
| Delegate | 複数アプリ・Attended | パブリック/プライベートプレビュー |
ここまでが土台。Screenplay は「エンタープライズスケールの Unattended UI 自動化のための自動運転」 と説明されていて、ビルトインのレジリエンス(足りない情報を画面から推論して埋める)が一番の売りです。Delegate はその「Attended 版」で、Screenplay が苦手とする変動性の高いシナリオを補完する立ち位置。
ここから先が本題 です。
Computer Vision 2.0、来ましたよ!!
Semantic Targeting に新たに Image Mode が追加されます。これについてスピーカーがマーケティング表現を削った上で言い切っていたのが、
「これはまさに Computer Vision 2.0 です。」
裏話として、スピーカーの上司の上司が「マーケティング表現を全部削れ」と言ってきたところ、改めて見直して「これは本当に CV 2.0 だ」と気付いたという、ちょっと笑える経緯も披露されていました。
何がそんなにすごいのか
現在の VLM(ビジョン言語モデル)は Image Grounding(画像中の要素を自然言語で指し示す能力)が圧倒的に強力になっています。これを UI Automation のターゲット指定にそのまま持ち込んだのが Image Mode。
- 意味で見つける:従来のセレクター(DOM や属性)ではなく、視覚的な意味で UI 要素を特定
- フォールバックにもプライマリにもなる:セレクターが壊れたときの保険にも、最初から主戦略にもできる
- Update UI Element にも対応:日付ピッカーやラジオボタングループなど、複雑な UI 要素にも適用可能
デモが分かりやすい — 動物図鑑チャレンジ
デモは「Wild Animals Vocabulary」という動物図鑑画面に対して、自然言語で要素を指定していくもの。
- 「百獣の王」→ ライオンのアイコンを特定(詩的な表現でも通る)
- 「2 列目の 3 番目の動物」→ 位置指定での特定
- 「3 列目」→ 単一 UI 要素に限らない領域指定も可能
「3 列目」を指定したときの結果がコレ。
行全体が緑の枠で囲まれているのが見えますよね。単一 UI 要素縛りから完全に解放されている ってことです。スピーカー曰く「長方形であれば、この形式で説明できる」。
何が変わるか(現場目線)
これ何が嬉しいかって、従来 Computer Vision でしか手が出なかった "属性が取れない UI" に対して、ぐっと自然な指定ができるようになる、ってことです。Citrix 越し、レガシーデスクトップアプリ、Flash/Canvas/ゲーム的な独自描画 UI、それから複雑な業務システムの「グリッド全体」「リスト全体」みたいな範囲指定。今までセレクター職人芸でなんとかしてきた領域が、自然言語一行で済む可能性が出てきた。
コストは従来 CV より少し高め、とのこと。ただ、プライマリかフォールバックかを選べる ので、コスト vs 堅牢性を運用で調整できます。これは現場でめちゃくちゃ効くやつです。
26.10 ロードマップ:一般 UI Automation 編
26.10(2026 年 10 月リリース)に向けたロードマップ、まずは UI Automation 全体の一般アップデートから。
- Activity Migrator:クラシックプロジェクトをモダンプロジェクトに移行。Healing Agent や Unified Target が利用可能に。移行に二の足を踏んでいたチームには朗報 です
- Windows automation in Studio Web:ローカルファイル・ローカルロボットに対応した Windows RPA を Studio Web で構築可能に。Studio Web の射程が一気に広がります
- macOS Support:UI Automation だけでなく macOS 全体のサポートパッケージ。「UI Automation はその構成要素の一つ」と説明されていて、本気度を感じます
そして、Agentic 系の一般アップデートが続きます。
- On-prem availability:Screenplay と Healing Agent が Automation Suite / Dedicated SaaS でも利用可能に。オンプレ縛りで Agentic 機能を待っていたユーザに朗報
- Semantic Activities × BYOM:Bring Your Own Model(AI Trust Layer 経由)でオンボーディングする際に 無償消費枠 が付与される。これまで Semantic Selector と Screenplay にはあって、Semantic Activities だけ欠けており、これでピースが揃った形
- Semantic Targeting Image Mode:上で書いた Computer Vision 2.0 がGA
26.10 ロードマップ:Screenplay 専用強化
タイトルスライドのキャッチコピー「Adaptive cruise control at runtime」、どっかの自動運転メタで気が利いてますよね。
背景として、当初 UiPath は Screenplay を マイクロタスク にターゲットしていたのが、顧客の本音は 「1 プロンプト・複数ターゲット」(数百〜数千の URL/ポータルへの入力・抽出)だったとのこと。しかも「高速で、安価で、レールの上を走るように」という。これに応えるのが ScreenPlay 26.10 です。
上段の柱が 4 つ:1 プロンプト数百ターゲット / Easy to build / Runtime: Minimally agentic, maximally RPA(ポリシーとして明文化されたのがデカい)/ Healing。
具体機能は以下の通り。
- Prompt Tooling:オフラインモードでプロンプトを手動・自動の両方で反復改善
- Updated models:PathMini v1.0(社内製 LAM、Qwen ベース、無償提供予定!!)/GPT 5.5 & Mini/Gemini Flash 3.0 Preview
- Data Extraction v2.0:複数方式の統一、JSON 抽出スキーム も指定可能
- Show & Tell Recorder:作業を実演しながら初期プロンプトを自動生成
- Deterministic Execution:100% 決定論的を基本に、必要なときだけ agentic にフォールバック
社内製 PathMini v1.0 を無償提供ってのはイイネ!「Screenplay 遅い」という声に内製で殴り込むスタンス、好きです。
UiPath for Coding Agents — 5 つのスキル
26.10 のもう一つの柱が コーディングエージェント との統合。提供スキルが 5 つに整理されていました。
- Build:プロンプトから UIA RPA ワークフローを生成
- Driver CLI (Servo):エージェントがデスクトップアプリ/ブラウザを「見て・操作する」CLI
- Selector Intelligence:堅牢なセレクター構築の支援
- Diagnose:ジョブ失敗の診断と修正案
- ScreenPlay Prompt Editor:オフラインでプロンプトを自動最適化
未来のビジョン — ランフラットタイヤ構想
締めで紹介されたのが、Define automation → Coding Agent → Review & Publish → Run-time → Post-run-time の 5 段階フロー。
ポイントは 「minimally agentic, maximally RPA」 という Run-time のポリシー。そして秀逸だったのが 「ランフラットタイヤ」 おいおい自動車にめっちゃ寄せてくるな!
「本番環境のダウンタイムは絶対に避けたい。決定論的な部分を修正している間も自動化を継続させたい。」
RPA が壊れたら Screenplay にフォールバックして動き続けながら、裏でコーディングエージェントが修復。タイヤがパンクしても走り続けるランフラットタイヤと同じ発想です。
整理すると、構築は agentic、ランタイムは決定論、壊れたときだけ agentic。「agentic を一番嬉しいフェーズに集中投下する」設計で、「組み合わせ」の完成形といっていい。これ「壊れても止まらない自動化」ってことじゃないですか!!
要点まとめ
- Computer Vision 2.0(Image Mode):Semantic Targeting に視覚的指定が追加、意味・位置・領域を自然言語一行で
- 26.10 一般:Activity Migrator / macOS / Studio Web Windows Automation / On-prem (Automation Suite, Dedicated SaaS) / Semantic Activities BYOM 無償消費
- 26.10 Screenplay:Show & Tell Recorder / Prompt Editor v2.0 / Data Scraping v2.0 / PathMini v1.0(無償)/ Deterministic Execution
- Coding Agents 5 スキル:Build / Driver CLI (Servo) / Selector Intelligence / Diagnose / ScreenPlay Prompt Editor
- 未来像:minimally agentic, maximally RPA + ランフラットタイヤオートメーション
おわりに
というわけで、Agentic UI Automation セッションのレポでした。
聴く前は「Screenplay 推しの話で終わるんだろうな」くらいに思ってたんですが、実際は逆で「ランタイムは可能な限り決定論的に、Agentic は構築と修復に集中」という、めちゃくちゃ硬派な設計思想で唸りました。Computer Vision 2.0 はセレクターが取れない UI 業務にすぐ刺せそうですし、26.10 のリリースが今から楽しみです!!











