LoginSignup
0
0

watsonx.governanceのチュートリアルを実施する

Last updated at Posted at 2024-06-28

2024年6月現在、watsonx.governanceは日本語の生成結果の評価ができません。チュートリアルでは英語のプロンプトの評価を実施することになります。

 はじめに

以下のマニュアルを参照して、watsonx.governanceのチュートリアルを実施してみます。スクリーンショットが少なく何回か迷ってしまったので、こちらの記事で詳しく解説していきます。
https://dataplatform.cloud.ibm.com/docs/content/wsj/getting-started/get-started-evaluate-prompt.html?context=wx&locale=ja&audience=wdp&audience=wdp&audience=wdp

本記事では保険請求の要約のユースケースを対象として、watsonx.governanceを用いたAIモデル評価を実践します。

前提条件

以下の記事を参照してwatsonx.governanceを使える状態にしておいてください。
https://qiita.com/thayate/items/6408ad07ef72fa4b2c49

1. モデルインベントリーとAIユースケースの作成

ナビゲーション・メニューから、 「AI ガバナンス」>「AI ユース・ケース」を選択します。
スクリーンショット 2024-06-28 12.07.35.png

モデルインベントリーの作成

作成済みのインベントリーがない場合は以下のような画面になっているかと思います。「インベントリーの管理」→新規インベントリーをクリックしてください。もし作成済みのインベントリーがありましたらこの手順はスキップしてください。
スクリーンショット 2024-06-28 13.32.42.png

名前にGolden Bank Insurance Inventoryと入力して、説明(オプション)にはModel inventory for insurance related processingと入力します。
作成後にコラボレーターを追加のチェックを外して、オブジェクト・ストレージ・インスタンスを選択して、作成をクリックします。
スクリーンショット 2024-06-28 13.35.06.png

モデルインベントリーが作成できたら右上の✗ボタンを押して、インベントリー画面を閉じます。
スクリーンショット 2024-06-28 13.38.33.png

AIユースケースの作成

「新規AIユースケース」をクリックします。
スクリーンショット 2024-06-28 13.40.33.png

名前をInsurance claims processing AI use caseとして、インベントリーは先程作ったものを選択します。他はデフォルトのままで作成します。
スクリーンショット 2024-06-28 13.43.13.png

これでプロンプトテンプレートを追跡する準備ができました。
スクリーンショット 2024-06-28 13.44.04.png

2. プロジェクトの作成

プロンプトテンプレートを評価するためにプロジェクトを作ります。
この手順ではサンプルデータを使ってプロジェクトを作成します。リソースハブのGetting started with watsonx.governanceにアクセスし、プロジェクトの作成をクリックします。

デフォルトのまま作成をクリックします。
スクリーンショット 2024-06-28 14.30.00.png

プロジェクトが正常に作成されたら「新規プロジェクトの表示」をクリックします。

次にWatson Machine Learningをプロジェクトに関連付けます。
「管理」タブの「サービスおよび統合」をクリックして、「サービスの関連付け」をクリックします。
スクリーンショット 2024-06-28 14.33.41.png

Watson Machine Learningのサービスを選択して、「アソシエイト」をクリックします。
スクリーンショット 2024-06-28 14.34.47.png

プロジェクト内の「アセット」タブをクリックして、いくつかの資産が追加されていることを確認します。
スクリーンショット 2024-06-28 14.35.58.png

3. プロンプトテンプレートの評価

リソースハブから入手したサンプルプロジェクトにはテストデータとして利用されるいくつかのプロンプト・テンプレートとcsvファイルが含まれています。ここからの手順でテストデータをダウンロードし、いずれかのサンプルプロンプトテンプレートを評価します。

「アセット」タブの資産一覧からInsurance claim summarization test data.csvのファイルのオーバーフローメニューボタンをクリックして、「ダウンロード」をクリックします。似たような名前のファイルが並んでいて間違いやすいので気をつけてください。(1敗)
スクリーンショット 2024-06-28 14.39.51.png

資産一覧からInsurance claim summarizationのプロンプトテンプレートをクリックして、「編集」を選択します。
スクリーンショット 2024-06-28 14.41.48.png

「プロンプト変数」 アイコン プロンプト変数をクリックして、「試行」と書いてあるフィールドを見てみます。「Input:」と書かれたフィールドに{input}という文字が入っているかと思います。{input}は画面右上で定義されているプロンプト変数を表していて、この変数に動的にテキストが入るようにしています。「命令(オプション)」のフィールドに書かれている指示文を固定して、「Input:」に入るテキストを変えて複数回テストすることで、このプロンプトテンプレートを評価しようとしています。
スクリーンショット 2024-06-28 14.43.13.png

右上の方にある「評価」アイコンをクリックします。(小さいボタン)
スクリーンショット 2024-06-28 14.49.50.png

「生成AIの品質」セクションを展開して、ディメンション(評価指標)にどんなものがあるか確認してみます。これは要約タスクのユースケースなので、それに適したディメンションがリストされています。分類など、他のタスクを選択した際には異なるディメンションがリストされます。
ここは特にいじらず、「次へ」をクリックします。
スクリーンショット 2024-06-28 14.51.22.png

テストデータの選択では先程ダウンロードしたInsurance claim summarization test data.csvをアップロードします。
スクリーンショット 2024-06-28 14.55.22.png

 Map variablesでは入力フィールドにInsurance_Claimと選択して、参照出力にはSummaryを選択します。
選択したら「次へ」→「評価」をクリックします。画面が切り替わっても評価が完了するまでに数分かかる場合があります。
スクリーンショット 2024-06-28 14.56.25.png

テストは失格でした!!
スクリーンショット 2024-06-28 15.14.58.png

「AIファクトシート」タブの「測定結果」をクリックします。
スクリーンショット 2024-06-28 15.16.11.png

評価結果の詳細が確認できます。Flesch、読みやすさを表す指標がしきい値を下回っていたため、アラートが出ています。
スクリーンショット 2024-06-28 15.17.34.png

さいごに

本記事ではwatsonx.governanceを使ったAIモデルの評価の流れを実施しました。AIモデルのトラッキングなど、チュートリアルはまだ続くのですが、記事が長くなるため別記事で投稿したいと思います。

チュートリアルの続き

watsonx.governanceのチュートリアルを実施する その2

0
0
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
0
0