こんにちは、夏休みの宿題は最終日に片付ける派の @manabutech です。
夏休みの宿題はやらないくせに、ゴールデンウィーク期間中もChatGPTやらAutoGPTやら色々と自由研究していました。
スマホで撮影した写真内の文章に関してChatGPTに質問できるWebアプリを作りましたので、作り方含めて公開したいと思います。
デモ
実際に作ったものはこちらです。
スマホで撮影した画像からAI-OCRでテキスト抽出してChatGPTに質問できるアプリなんですが、UiPathのローコード開発ツールとRPAを使うことで1時間程度で作ることができます。
こちらの製品はHAAN社の既存製品にUiPathのロゴを付けたものですが、正しく読み取っていますね。
質問の仕方によって回答が変わってくるとは思いますが、あらためてOpenAIのGPTはすごいですね!
構成
使用するUiPath製品を超超超ざっくりと解説します。
これらは個人利用無償で使えるUiPath Community版に全て入っていますので、個人利用であれば無料で使用可能です。
UiPath Studio
自動化処理を簡単に作成できるツールです。
UiPath Orchestrator
UiPath Studioで作成した自動化処理を格納して管理するツールです。
スケジュール実行や特定のトリガーでロボットを動かすこともできます。
UiPath Robot
自動化処理を実行するためのツールです。
UiPath Apps
ドラッグアンドドロップで簡単にWebアプリを作ることができるローコード開発ツールです。
ボタンクリックなどのタイミングで、UiPath Studioで作成した自動化処理をOrchestrator経由でRobotに実行してもらうことができます。
UiPath DataService
ノーコードで使えるデータモデリングツールです。
UiPath StudioやUiPath Appsで使用するデータを保存しておくことができます。
UiPathを使用するメリット
プログラミング経験がある人はプログラムを組んでいけばよいのですが、世の中そんなハイスペックな人だけでは無いです。そんな時はRPAでサクッと作っちゃいましょう。UiPathならローコード開発ツールもあるのでUIも含めて作ることができます。
UiPathを使用するメリットは大きく分けて4つあります。
- メリット1. 簡単に作れる
- メリット2. 他の人も使用することができる
- メリット3. 情報漏洩の心配が無い
- メリット4. 保存したデータを解析できる
メリット1. かんたんに作れる
一番のメリットは簡単に作れることです。
AI-OCRを使用して画像から文章を読み込む処理も入れていますが、これを実現するためには本来ならプログラミング経験と開発時間が必要です。しかし、UiPathであれば部品をドラッグ&ドロップでレゴブロックのように簡単に作ることができます。
簡単に作れるということは保守もしやすいということにもつながります。会社でも作った人しかメンテナンスできないExcelマクロやPythonプログラムなどが無いですか?
誰でも理解できるということは非常に重要です。カワイイは正義!ですが、カンタンは正義でもあります!
メリット2. 他の人も使用することができる
UiPath AppsはWebアプリを作ることができます。ブラウザがあれば動きます。
スマートフォンでも動作させることができます。使用する上で何かツールをインストールすることも無いので、他の人に共有することができます。
メリット3. 情報漏洩の心配が無い
UiPathのGPTに質問するAskGPTという部品はUiPathがAzure上に構築した環境を利用しています。このため、OpenAIに質問内容が送信され、再学習に利用される心配はありません。
メリット4. 保存したデータを解析できる
会社としてChatGPTを使う場合は、共通のAPIを会社で管理する方法が一般的になるのではないかと思います。
その場合に誰がどのくらい使っているか把握したいと考えるはずです。今回のようにDataServiceを使用することで解析に役立てることができます。
作り方
ここからは実際に開発したい人向けに作り方を公開します。
UiPath Appsは、Automation Cloudの中の1つの機能です。RPAを作れる人、使える人は既にAppsを使える権利があるわけです。
これを使わない手はありません。
UiPath Appsの作り方を解説している記事はあまりありませんので、参考になると思います。
環境構築はこちらの記事を参考にして下さい。
今回は環境構築後の基本機能を作るところを解説していきます。
- STEP1. Appsで画面を作ろう
- STEP2. DataServiceでデータを保存
- STEP3. RPAの処理を作る
- STEP4. AppsとRPAを繋げよう
こちらの動画に作成方法をまとめています。(クリックすると再生されます)
この記事では分かりにくい箇所を解説しています。簡単とは言いましたが、ステップ4はそこそこ難しくなっております。。。
InternalLabs.OpenAI.ActivitiesはInternalLabs.GPT.Activitiesという名称になりました。動画内ではInternalLabs.OpenAI.Activitiesとなっていますのでご注意ください。
ソースコードはGithubで公開しています
STEP1. Appsで画面を作ろう
Appsはコントロールとページを組み合わせてアプリのUIを作っていきます。
今回作成するアプリのSingle Pageでは、次のように複数のコントロールで構成されています。
STEP2. DataServiceでデータを保存するエンティティを作成
次の画面はAppsGPTというエンティティを作成したものです。
このように新しいフィールドを作成していく必要があります。
STEP3. RPAの処理を作る
処理が少しでも簡単になるようにリストは使用しません。
質問数をAppsからDataService経由で渡してもらい質問数で条件分岐する作りにしています。
ロボットとAppsでデータを共有する方法
データを共有する方法は大きく分けて2つあります。
①引数を使用してデータを渡す方法
ロボットを、実行する時にデータを渡してあげることができます。その時にデータを入れる箱が引数と考えてください。また、実行が終わった際にロボット側がデータを置いておくこともできます。
②DataServiceを使用してデータを渡す方法
こちらはDataServiceにあらかじめ保存されているデータを使います。
引数の方が簡単に作れますが、今回のようにドキュメントビューアでファイルを表示させたい場合などはDataServiceでしか作れません。今回RPAでAI-OCRで画像から文字情報を抽出していますが、DataServiceを使わない場合は、画像ファイルを格納するための共有サーバーなどを用意する必要がありますので、処理が複雑になります。
便利なドキュメントをデジタル化アクティビティ
ドキュメントをデジタル化アクティビティはドキュメントに文字情報が入っている場合は文字情報を取得し、文字情報が入っていない場合はAI-OCRを使用して文字情報を画像から抽出する便利な部品です。
例えば、PDFには紙をスキャンしたような文字情報の入っていないPDFはAI-OCRが使われますが、WordファイルをPDF化して文字情報が入っているものはAI-OCRは使わずに格納されている文字情報を使用します。
AI-OCR日本語版のアクティビティを使用していますが、こちらを使用するためにはDocument Understandingライセンスが必要となります。Document Understandingが無い場合にも使えるAI-OCRがありますので、そちらを指定することも可能です。
AskGPTアクティビティ
AskGPTアクティビティはUiPathマーケットプレースで公開されているInternalLabs.OpenAI.Activitiesパッケージをインストールすると使えるようになります。
UiPathにはファイルからテキストを読み取る色々な方法が用意されているので、簡単にテキスト情報を取得できます。
取得したテキストと質問をAskGPTに設定するとChatGPTが回答を返してくれます。
UiPath AskGPTアクティビティはAzure上に構築されたOpenAIリソースを利用しています。
OpenAIに情報が送信されないため、自動化で使用したテキスト情報が再学習に使用されるリスクはありません。
InternalLabs.GPT.Activitiesは公式にサポートされているものではありませんのでご注意ください。現在、デモやPoCなどに無料で利用することができます。将来的にUiPath公式のアクティビティに統合される予定です。
STEP4. AppsとRPAを繋げよう
Appsではボタンクリックやページ読み込みなど、特定のイベントで処理を追加することができます。
例えばボタンクリック時には、レコード更新とプロセス開始が行われます。
ドキュメントビューアに表示させる方法
ドキュメントビューアにPDFファイルなどを表示させる場合は、少し注意が必要です。
ファイルピッカーにはファイル名しか情報が無くファイル自体は保存されていないため直接指定することはできません。
DataServiceのエンティティも特定のレコードのフィールド情報を指定できないため、直接指定することができないのです。
うーん、じゃあどうすればいいのか?ここであきらめるか。
あきらめたらそこで試合終了ですよ。安西先生の声が聞こえたような気がしました。
そう、面倒ですが3つの手順を踏む必要があります。
(なんかここら辺、製品としてもうちょっと簡単になるべきだと思われる。。。)
まずファイルピッカーからファイル追加時にエンティティに対してレコードを新規に作成してファイル名とファイル情報を格納します。
データコンテキストにエンティティのレコードが特定できる条件を設定します。
データコンテキストはエンティティのレコードを格納するための箱のイメージです。
例えば、エンティティのGroupIdカラムがGroupId変数と一致するレコードのように条件を指定します。
この条件により、複数のレコードから構成されるエンティティから1つのレコードを取得することができます。
お待たせしました、お待たせしすぎたかもしれません。
これでドキュメントビューアのデータソースにデータコンテキストを指定すると、無事に文書が表示されます。
ちなみにファイルピッカーのファイル名とエンティティのファイル名を一致させることもできるのですが、同名のファイル名が存在することを考慮して、ファイルピッカーにファイル追加時にGroupIdというランダムな値をIDとして設定してデータコンテキストでGroupIdと一致する条件でレコードを取得しています。
ロボットからデータをもらう時の注意点
今回ロボットからAppsにデータを渡す際には、引数ではなくてDataServiceを使用しています。
これはGPTへの質問数を可変にできるというメリットもありますが、やはりアプリ側にデータを蓄積できるためです。
例えば、過去に質問した内容を取得したい場合はGPTに再度質問を投げなくてもアプリ側だけで高速に処理できます。
DataServiceを使用する際の注意点としては、データコンテキストの更新タイミングがあります。
データコンテキストはエンティティの更新をAppsから明示的に行わないと更新されません。よって、エンティティをプロセスを呼び出した後に更新しています。
さいごに
UiPath Appsを使うことで1時間程度でAI-OCR処理も含めたアプリを作ることができました。
UiPath Appsで簡単にスマホからも使えるアプリが作れるのは、なかなかアツいですよね。
しかし、別のPCにあるロボットに処理をお願いするために応答が帰ってくるまでは時間がかかってしまいます。
よって、実運用では複数のファイルに同じ質問を行い、後で結果を通知するような構成にした方が望ましいと思います。
今話題のAutoGPTにUiPath AppsでUIを作ってやり、再帰的なGPTへの質問が完了して通知が飛ぶような仕組みにすれば面白いのではないでしょうか?
もしこちらの記事が好評であれば、AutoGPTについても記事にしていきたいと思います。
励みになりますので、内容が面白かった人はいいね・フォローお願いします!