はじめに
ScreenPlay は、UiPath® が提供する次世代のコンピューター使用エージェントで、自然言語の目的を理解し、人間と同じように自律的にインターフェイスを操作する新機能です。昔は、ルールベースでUI自動化のワークフローを組み立ててきましたが、今後はScreenPlayでやりたいことを伝えるだけで、ブラウザーまたはアプリケーションをエージェントに任せることが可能になります。それのみならず、従来のオートメーションなら動作しなくなるような変更にも対応できるため、Healing Agentと補完するような存在でも言えます。
目次
本記事は、以下の部分から構成されています。
ーScreenPlayのインストール
ーScreenPlayのサンプル
ScreenPlayのインストール
前提条件
ScreenPlayはまだプレビュー機能であり、現段階において利用するための条件は以下の通りです。
①エンタープライズユーザーのみ使えます。
②独自のモデルを作成する必要があります。この機能は、Enterprise-Advanced (フレックス) および Enterprise (ユニファイド プライシング) のライセンスプランで利用できます。
③GA後は、個別のサブスクリプションは不要ですが、現段階において、次のモデルでしか動作しません。
製品 | モデル |
---|---|
AWS Bedrock | anthropic.claude-3-73connet-20250219-v1:0 |
Azure OpenAI | gpt-4.1-2025-04-14 |
Azure OpenAI | gpt-4.1-mini-2025-04-14 |
Azure OpenAI | computer-use-preview-2025-03-11 |
Google Vertex | gemini-2.0-flash-001 |
筆者の環境情報
まず、筆者の環境情報を共有します。
項目 | バージョン |
---|---|
Studio | 24.10.16 |
UiPath.UIAutomation.Activities | 25.10.13 |
Google Vertex | gemini-2.0-flash-001 |
Chrome | 140.0.7339.128 |
ScreenPlayのご利用は、2025.10.5以降のUI Automationパッケージが必要なので、あらかじめダウンロードしておいてください。
2.独自のモデルの設定
詳しい情報、LLMを設定するをご参照ください。
①[管理] > [AI Trust Layer] > [LLM の設定] に移動し、テナント、フォルダを選択したうえで、「設定を追加」を押します。
②製品で「UIオートメーション」、機能で「ScreenPlay」を選択
③置き換え可能なLLMのプルダウンメニューから、利用したいモデルを選択します。筆者は、Geminiを利用します。
④コネクタは選択したLLMモデルにより、自動で生成されます。Geminiの場合は、Google Vertexのコネクションを作成する必要があります。既存のコネクションがない場合、新規追加の選択肢が出ますので、そこからIntegration Serviceのページに遷移してコネクションを作成することができます。LLM識別子は、置き換え可能なLLMと同じモデルを入れてください。
⑤「テストの設定」を押します。接続失敗でしたら、「xxxモデルに到達できません」というエラーが表示されます。※契約のサブスクリプションは、プルダウンメニューのモデルが含まれなかったら、利用できません。例:Google Vertexのサブスクリプションを持っているものの、Gemini-2.0-flash-001が含まれなかったら使えないのです。
⑥接続テストがうまく通ったら、保存ボタンを押して終了です。
ScreenPlayのサンプル
1.Qiita記事を探してもらう
目標:
自然言語で読みたいQiita記事のタイトルをエージェントに教えてあげ、Qiita記事を開いてもらいましょう。
サンプルワークフロー
①現時点において、アクティビティパネルで、ScreenPlayを入れたら何も出てこないため、「UIエージェント」を入れてください。
②「アプリケーション/ブラウザーを使用」で、Qiitaのホームページを指定します。
③「UIエージェント」をスコープの中に配置します。「タスク」で、"Qiitaで「UiPath Studio マウスとキーボードの長押し自動化」という記事を探して開いてください"と記述します。「モデル」は、LLM設定で作成したものを選択します。
実行結果:
①動画
②ログ
所感:
ログでUIエージェントの行動と行動の理由が記載されていますので、エージェントはどのロジックで自律的に対向システムを操作したのかは追跡できますね。なお、エージェントは、シンキングの時間を要するので、動作はルールベースほど早くないです。
2.為替レートを調査してもらう
Googleで、日本円とドルの為替レートを調査し、その結果を教えてくれるエージェントを作ってみました。
サンプルワークフロー
①「アプリケーション/ブラウザーを使用」で、Googleを指定します。
②「UIエージェント」をスコープの中に配置します。「タスク」で、"Googleで日本円とアメリカドルの為替レートを調べ、その結果を教えてください"と記述します。「結果」で、ResultというString変数を作成します。
③メッセージボックスでResultを入れます。
実行結果:
①動画
②ログ&結果
所感
かしこい!動画を撮るために、2回実行しましたが、なんか2回目の実行が早くなった気がしますね。結果もちゃんと文字列として返してくれたので、強いです。
終わりに
いかがでしたか。筆者は、エージェントはもうこんなレベルまで進化してきたとは驚いたのです。ただし、プレビュー版のUIエージェントは、複雑なUI操作を行う際に、やはりスピードも、精度も、まだルールベースのワークフローと比べたら改善の余地があると思います。今後も進化し続けるので、ある日はルールベースより正確性が高いでしょう。一緒に期待しましょう!