この記事はUiPathブログ発信チャレンジ2025サマーの23日目の記事です。
0. はじめに
2025年7月16日にUiPath UI Agent(仮称)がPublic Previewとなりました。早速使ってみた記録と所感です。
1. UiPath UI Agent(仮称)とは?
UiPathでは、ある操作を自動化する場合、その操作自体は主にアクティビティの種類で決定し、操作対象はセレクターや、画像マッチング等の方法で特定します。
今回主題としているUI Agent(仮称)は自然言語で操作や操作対象を記述することにより自動化を実現するものです。これにより、例えば画面構成が頻繁に変更となるため従来のセレクター等の手法では動作が安定しないケースでの品質確保に寄与したり、あるいは同様の目的の複数のサイトがある場合、従来はそのサイトごとに自動化のためのワークフローを作成していたものを一つのUI Agent(仮称)で対応することにより生産性の向上(≒投資対効果の観点で今までできなったものができるようになる)に寄与すること等が期待されます。
なお公式ドキュメント上でもUI Agentはコード名で、正式リリース時は名称が変わる旨の記述があるため、本書でも「仮称」と記載しています。
2. 注意事項
公式ドキュメントによりますと、現時点(Public Preview)ではEnterpriseユーザーのみ利用可能となっています。またモックデータを使用したテスト環境のみでの使用を推奨とのことです。
内部でLLMを使用しているため、LLMに関する何らかの使用権が必要です。ドキュメントでは個別契約が必要な旨の記述がありましたが、Agent Unitでも大丈夫かもしれません(未確認)
3. UI Agentを試してみる
まずUiPath UIAutomation.Activities pacakge 25.10.11-preview以上が必用になるのでこれをインストールします。
アクティビティパネル上にUIエージェントアクティビティが出てきますので、これを利用します。

アクティビティの外観は今のところ下図のような感じです。アプリケーション/ブラウザを使用アクティビティの内部に配置し、タスクプロパティに、操作を自然言語で記述します。
実際に実行してみましょう。Googleの検索画面にブラウザを使用アクティビティで遷移してから、UIエージェントアクティビティを使用します。今回の実行に使用したプロンプトは以下になります。
検索窓に「RPA」を入力し、検索窓のフォーカスを外してから、検索ボタンをクリックする。結果の上位3件を取得する
実行結果の動画は以下の通りです。UIエージェントアクティビティ内部でLLMを呼び出している関係上、かなり遅いので気長にご覧下さい。(音声はありません。文字まで確認したい場合は1080p推奨です)
実際に自然言語による記述で、期待する結果を得ることができました。
4. 所感
自然言語で操作を記述するだけで一定の結果が得られることは、従来方式の自動化の作り方に比べると、難易度はかなり低くなる可能性を感じますし、よりロバストな自動化が可能という点でも期待が大きいです。
ただし今のところどうしても処理速度が不足している感は否めず、そのような観点からも、適用業務にもよりますが、従来型の自動化との組み合わせは当面の間は必要な印象です。
逆に、同様のことが実現できるものとして、ブラウジング機能付きのLLMやGPT Agent等との対比になるように思えますが、LLMのスループットがそれほど変わらないのであれば、UiPathの従来型の自動化の組み合わせができる点は、優位に働くかもしれません。
まだPublic Previewなので、今後どのように進化するか、GA版のリリースに期待したいと思います。
