2024年6月現在、watsonx.governanceは日本語の生成結果の評価ができません。チュートリアルでは英語のプロンプトの評価を実施することになります。
はじめに
以下のマニュアルを参照して、watsonx.governanceのチュートリアルを実施してみます。スクリーンショットが少なく何回か迷ってしまったので、こちらの記事で詳しく解説していきます。
https://dataplatform.cloud.ibm.com/docs/content/wsj/getting-started/get-started-evaluate-prompt.html?context=wx&locale=ja&audience=wdp&audience=wdp&audience=wdp
本記事では保険請求の要約のユースケースを対象として、watsonx.governanceを用いたAIモデル評価を実践します。
前提条件
以下の記事を参照してwatsonx.governanceを使える状態にしておいてください。
https://qiita.com/thayate/items/6408ad07ef72fa4b2c49
1. モデルインベントリーとAIユースケースの作成
ナビゲーション・メニューから、 「AI ガバナンス」>「AI ユース・ケース」を選択します。
モデルインベントリーの作成
作成済みのインベントリーがない場合は以下のような画面になっているかと思います。「インベントリーの管理」→新規インベントリーをクリックしてください。もし作成済みのインベントリーがありましたらこの手順はスキップしてください。
名前にGolden Bank Insurance Inventoryと入力して、説明(オプション)にはModel inventory for insurance related processingと入力します。
作成後にコラボレーターを追加のチェックを外して、オブジェクト・ストレージ・インスタンスを選択して、作成をクリックします。
モデルインベントリーが作成できたら右上の✗ボタンを押して、インベントリー画面を閉じます。
AIユースケースの作成
名前をInsurance claims processing AI use caseとして、インベントリーは先程作ったものを選択します。他はデフォルトのままで作成します。
2. プロジェクトの作成
プロンプトテンプレートを評価するためにプロジェクトを作ります。
この手順ではサンプルデータを使ってプロジェクトを作成します。リソースハブのGetting started with watsonx.governanceにアクセスし、プロジェクトの作成をクリックします。
プロジェクトが正常に作成されたら「新規プロジェクトの表示」をクリックします。
次にWatson Machine Learningをプロジェクトに関連付けます。
「管理」タブの「サービスおよび統合」をクリックして、「サービスの関連付け」をクリックします。
Watson Machine Learningのサービスを選択して、「アソシエイト」をクリックします。
プロジェクト内の「アセット」タブをクリックして、いくつかの資産が追加されていることを確認します。
3. プロンプトテンプレートの評価
リソースハブから入手したサンプルプロジェクトにはテストデータとして利用されるいくつかのプロンプト・テンプレートとcsvファイルが含まれています。ここからの手順でテストデータをダウンロードし、いずれかのサンプルプロンプトテンプレートを評価します。
「アセット」タブの資産一覧からInsurance claim summarization test data.csvのファイルのオーバーフローメニューボタンをクリックして、「ダウンロード」をクリックします。似たような名前のファイルが並んでいて間違いやすいので気をつけてください。(1敗)
資産一覧からInsurance claim summarizationのプロンプトテンプレートをクリックして、「編集」を選択します。
「プロンプト変数」 アイコン プロンプト変数をクリックして、「試行」と書いてあるフィールドを見てみます。「Input:」と書かれたフィールドに{input}という文字が入っているかと思います。{input}は画面右上で定義されているプロンプト変数を表していて、この変数に動的にテキストが入るようにしています。「命令(オプション)」のフィールドに書かれている指示文を固定して、「Input:」に入るテキストを変えて複数回テストすることで、このプロンプトテンプレートを評価しようとしています。
右上の方にある「評価」アイコンをクリックします。(小さいボタン)
「生成AIの品質」セクションを展開して、ディメンション(評価指標)にどんなものがあるか確認してみます。これは要約タスクのユースケースなので、それに適したディメンションがリストされています。分類など、他のタスクを選択した際には異なるディメンションがリストされます。
ここは特にいじらず、「次へ」をクリックします。
テストデータの選択では先程ダウンロードしたInsurance claim summarization test data.csvをアップロードします。
Map variablesでは入力フィールドにInsurance_Claimと選択して、参照出力にはSummaryを選択します。
選択したら「次へ」→「評価」をクリックします。画面が切り替わっても評価が完了するまでに数分かかる場合があります。
評価結果の詳細が確認できます。Flesch、読みやすさを表す指標がしきい値を下回っていたため、アラートが出ています。
さいごに
本記事ではwatsonx.governanceを使ったAIモデルの評価の流れを実施しました。AIモデルのトラッキングなど、チュートリアルはまだ続くのですが、記事が長くなるため別記事で投稿したいと思います。