More than 1 year has passed since last update.

watsonx.governanceのチュートリアルを実施する

Last updated at 2024-07-04Posted at 2024-06-28

2024年6月現在、watsonx.governanceは日本語の生成結果の評価ができません。チュートリアルでは英語のプロンプトの評価を実施することになります。

　はじめに

以下のマニュアルを参照して、watsonx.governanceのチュートリアルを実施してみます。スクリーンショットが少なく何回か迷ってしまったので、こちらの記事で詳しく解説していきます。
https://dataplatform.cloud.ibm.com/docs/content/wsj/getting-started/get-started-evaluate-prompt.html?context=wx&locale=ja&audience=wdp&audience=wdp&audience=wdp

本記事では保険請求の要約のユースケースを対象として、watsonx.governanceを用いたAIモデル評価を実践します。

前提条件

以下の記事を参照してwatsonx.governanceを使える状態にしておいてください。
https://qiita.com/thayate/items/6408ad07ef72fa4b2c49

1. モデルインベントリーとAIユースケースの作成

ナビゲーション・メニューから、「AI ガバナンス」>「AI ユース・ケース」を選択します。

モデルインベントリーの作成

作成済みのインベントリーがない場合は以下のような画面になっているかと思います。「インベントリーの管理」→新規インベントリーをクリックしてください。もし作成済みのインベントリーがありましたらこの手順はスキップしてください。

名前にGolden Bank Insurance Inventoryと入力して、説明（オプション）にはModel inventory for insurance related processingと入力します。
作成後にコラボレーターを追加のチェックを外して、オブジェクト・ストレージ・インスタンスを選択して、作成をクリックします。

モデルインベントリーが作成できたら右上の✗ボタンを押して、インベントリー画面を閉じます。

AIユースケースの作成

「新規AIユースケース」をクリックします。

名前をInsurance claims processing AI use caseとして、インベントリーは先程作ったものを選択します。他はデフォルトのままで作成します。

これでプロンプトテンプレートを追跡する準備ができました。

2. プロジェクトの作成

プロンプトテンプレートを評価するためにプロジェクトを作ります。
この手順ではサンプルデータを使ってプロジェクトを作成します。リソースハブのGetting started with watsonx.governanceにアクセスし、プロジェクトの作成をクリックします。

デフォルトのまま作成をクリックします。

プロジェクトが正常に作成されたら「新規プロジェクトの表示」をクリックします。

次にWatson Machine Learningをプロジェクトに関連付けます。
「管理」タブの「サービスおよび統合」をクリックして、「サービスの関連付け」をクリックします。

Watson Machine Learningのサービスを選択して、「アソシエイト」をクリックします。

プロジェクト内の「アセット」タブをクリックして、いくつかの資産が追加されていることを確認します。

3. プロンプトテンプレートの評価

リソースハブから入手したサンプルプロジェクトにはテストデータとして利用されるいくつかのプロンプト・テンプレートとcsvファイルが含まれています。ここからの手順でテストデータをダウンロードし、いずれかのサンプルプロンプトテンプレートを評価します。

「アセット」タブの資産一覧からInsurance claim summarization test data.csvのファイルのオーバーフローメニューボタンをクリックして、「ダウンロード」をクリックします。似たような名前のファイルが並んでいて間違いやすいので気をつけてください。（1敗）

資産一覧からInsurance claim summarizationのプロンプトテンプレートをクリックして、「編集」を選択します。

「プロンプト変数」アイコンプロンプト変数をクリックして、「試行」と書いてあるフィールドを見てみます。「Input:」と書かれたフィールドに{input}という文字が入っているかと思います。{input}は画面右上で定義されているプロンプト変数を表していて、この変数に動的にテキストが入るようにしています。「命令（オプション）」のフィールドに書かれている指示文を固定して、「Input:」に入るテキストを変えて複数回テストすることで、このプロンプトテンプレートを評価しようとしています。

右上の方にある「評価」アイコンをクリックします。（小さいボタン）

「生成AIの品質」セクションを展開して、ディメンション（評価指標）にどんなものがあるか確認してみます。これは要約タスクのユースケースなので、それに適したディメンションがリストされています。分類など、他のタスクを選択した際には異なるディメンションがリストされます。
ここは特にいじらず、「次へ」をクリックします。