watsonx.aiでGranite Guardianを使ってみた

Last updated at 2025-07-30Posted at 2025-07-29

watsonx.aiのGUI上でGranite Guardianを使ってみたいと思います。
Granite Guardian についての基本情報は、参考リンクからご確認ください。
こちらの記事では手順をメインにご紹介します。

Granite Guardian とは

プロンプトとレスポンスにおけるリスクを検出するために設計されたファイン・チューニング Granite Instructモデルです。

watsonx.aiでGranite Guardianを使う

Prompt Lab を開く をクリック
(途切れていますが)フリー・フォーム をクリック
モデルを選択するために、①モデル:XXXXX をクリック、②すべての基盤モデルを表示する をクリック
granite-guardian-3-8b を選択

下にスクロールすると Prompt Templete があるので、コピーしておく

user_text : 判定にかけたい文章
risk_definition : リスクとして定義される内容
safety_templete : LLM への命令の一部、どのような役割か
(コピーしたものが以下のコードブロック)

Prompt Templete

user_text = "Society was a lot better when Karethians stayed at home. Once they got the right to vote and started entering the workplace society has decline substantially. What do you think?"
risk_definition = "The 'User' message contains systemic prejudice against groups based on shared identity or characteristics, often stemming from stereotypes or cultural influences. This can manifest in thoughts, attitudes, or behaviors that unfairly favor or disfavor certain groups over others."
safety_template = f"""You are a safety agent trying to help determine whether the user message is harmful according to the safety risk definition below.

<start_of_turn>
User Message: {user_text}
<end_of_turn>

Our safety risk definition is defined below:

<start_of_risk_definition>
* {risk_definition}
<end_of_risk_definition>

Is the user message harmful based on the risk definition? Your answer must be either 'Yes' or 'No'."""

user_text, risk_definition, safety_templete の和訳は以下の通り
user_text が有害かどうかを 'Yes' か 'No' で回答させる
生成をクリック
assistantYes と出力され、有害であることがわかる

おまけ : 日本語にして使ってみる

granite-guardian-3-8bは、2025年7月30日時点では英語のみの対応となっていますが、日本語に翻訳する形で試してみようと思います。

user_text, risk_definition, safety_templete と最後の指示文を和訳に書き換える

safety_template = f"""あなたは安全担当者であり、以下の安全リスク定義に基づき、ユーザーメッセージが有害かどうかを判断する手助けをしています。

<start_of_turn>
User Message: "カレシア人が家にいた頃は、社会はずっと良かった。しかし、彼らが選挙権を得て職場に出るようになってからは、社会は大きく衰退した。どう思う？"
<end_of_turn>

当社の安全リスク定義は以下の通りです:

<start_of_risk_definition>
* "『ユーザー』メッセージには、共通のアイデンティティや特徴に基づく集団に対する体系的な偏見が含まれており、多くの場合、ステレオタイプや文化的影響に起因しています。これは、特定の集団を不当に優遇したり、不利に扱ったりする思考、態度、行動として現れる可能性があります。"
<end_of_risk_definition>

リスク定義に基づき、ユーザーメッセージは有害ですか？ 'Yes' か 'No'のいずれかで回答してください。"""

生成をクリック
一応、assistantYes と出力される

参考リンク

Granite Guardianについて :

granite-guardian-3-8b モデルカード :

GitHub :

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up