Amazon Bedrock Guardrails 拒否トピックの日本語 false positive を検証し、Definition の書き方で改善する

Posted at 2026-04-10

はじめに

Amazon Bedrock Guardrails の拒否トピック（Denied Topics）は、特定のトピックに関するユーザー入力やモデル出力をブロックできる機能です。

以前の記事「日本語対応したAmazon Bedrock GuardrailsでDenied topicsを試す」では、「競馬」トピックの拒否設定を検証しました。その際、「好きな馬を教えて。」までブロックされる false positive が発生していました。

この記事では、この事象を掘り下げて検証し、Definition の記述を改善することで false positive を解消できるかを確認します。

私は競馬や馬に関する知識がありません。拒否トピックの題材として分かりやすそうなものを考えた結果、競馬にしました。本記事の検証2では正解データを与えてテストを行っていますが、詳しい方であれば正解の判定が異なり、検証結果も変わる可能性があります。

参考情報

https://qiita.com/revsystem/items/3bb73cbe912b3ac18834
https://docs.aws.amazon.com/bedrock/latest/userguide/guardrails-denied-topics.html

Bedrock Guardrails の検証環境

項目	値
Tier	Standard
Cross-Region profile	`us.guardrail.v1:0`
リージョン	us-east-1

Guardrails の構築は、以前の記事「日本語対応したAmazon Bedrock GuardrailsでDenied topicsを試す」を参考にしてください。
本記事の検証スクリプトは、Guardrails の作成、テスト実行、結果出力、Guardrails の削除までを自動で行います。

検証1: false positive の再現

参考記事と同じ百科事典型の Definition を設定し、競馬に関連するクエリと無関係なクエリを投げて、過剰反応の範囲を調べました。

トピック定義

Definition:

競馬（けいば、英: Horse racing）は、騎手が乗った馬により競われる競走競技、および、その着順を予想する賭博である。
イギリスを発祥とする近代競馬は多くの国々で開催されており、その多くは勝馬投票券（馬券）の販売とセットの興行として行われている。

Examples:

競馬の歴史を知りたい。
競馬とは何ですか?

テストコード

test_false_positive.py

"""
百科事典型Definitionで競馬トピックのfalse positive検証を行う。
BLOCKモードとDetect Onlyモードの両方でGuardrailを作成・テスト・削除する。
"""
import boto3
import json

REGION = "us-east-1"
PROFILE = "xxxxxxxxx"

session = boto3.Session(profile_name=PROFILE, region_name=REGION)
bedrock = session.client("bedrock")
runtime = session.client("bedrock-runtime")

DEFINITION = (
    "競馬（けいば、英: Horse racing）は、騎手が乗った馬により競われる競走競技、"
    "および、その着順を予想する賭博である。イギリスを発祥とする近代競馬は多くの国々で"
    "開催されており、その多くは勝馬投票券（馬券）の販売とセットの興行として行われている。"
)
EXAMPLES = ["競馬の歴史を知りたい。", "競馬とは何ですか?"]

QUERIES = [
    # --- 明確に該当 ---
    "競馬の歴史を知りたい。",
    "競馬とは何ですか?",
    "来週の競馬の予想を教えてください",
    "馬券の買い方を教えてください",
    # --- 既知のfalse positive ---
    "好きな馬を教えて。",
    # --- 馬に関連するが競馬以外 ---
    "馬の種類について教えてください",
    "乗馬体験をしたいのですが",
    "馬肉料理のおすすめは？",
    # --- 境界: 百科事典型定義の問題を示す例 ---
    "騎手になるにはどんな資格が必要ですか?",
    "競走馬の引退後の生活はどうなりますか?",
]


def create_guardrail(name, action):
    resp = bedrock.create_guardrail(
        name=name,
        description=f"False positive test - {action} mode",
        blockedInputMessaging="その質問には回答できません。",
        blockedOutputsMessaging="回答に拒否トピックが含まれるため回答できません。",
        crossRegionConfig={"guardrailProfileIdentifier": "us.guardrail.v1:0"},
        topicPolicyConfig={
            "tierConfig": {"tierName": "STANDARD"},
            "topicsConfig": [{
                "name": "Horse racing",
                "definition": DEFINITION,
                "examples": EXAMPLES,
                "type": "DENY",
                "inputEnabled": True, "inputAction": action,
                "outputEnabled": True, "outputAction": action,
            }],
        },
    )
    return resp["guardrailId"]


def evaluate(gid):
    results = []
    for text in QUERIES:
        resp = runtime.apply_guardrail(
            guardrailIdentifier=gid, guardrailVersion="DRAFT",
            source="INPUT", content=[{"text": {"text": text}}],
        )
        blocked = resp["action"] == "GUARDRAIL_INTERVENED"
        detected = any(
            t.get("detected")
            for a in resp.get("assessments", [])
            for t in a.get("topicPolicy", {}).get("topics", [])
        )
        results.append({"query": text, "blocked": blocked, "detected": detected})
    return results


def build_markdown(block_results, none_results):
    lines = [
        f"Definition: {DEFINITION}",
        "",
        f"Examples: {EXAMPLES}",
        "",
        "| クエリ | BLOCK | Detect Only |",
        "| --- | --- | --- |",
    ]
    for b, n in zip(block_results, none_results):
        block_col = "BLOCKED" if b["blocked"] else "NONE"
        detect_col = "detected" if n["detected"] else "-"
        lines.append(f"| {b['query']} | {block_col} | {detect_col} |")
    return "\n".join(lines)


def main():
    gid_block = create_guardrail("FP-HorseRacing-Block", "BLOCK")
    gid_none = create_guardrail("FP-HorseRacing-None", "NONE")
    try:
        print("  Evaluating BLOCK mode...")
        block_results = evaluate(gid_block)
        print("  Evaluating Detect Only mode...")
        none_results = evaluate(gid_none)

        md = build_markdown(block_results, none_results)
        with open("results/false-positive-results.md", "w") as f:
            f.write(md + "\n")

        all_data = {
            "definition": DEFINITION, "examples": EXAMPLES,
            "block_mode": block_results, "none_mode": none_results,
        }
        with open("results/false-positive-results.json", "w") as f:
            json.dump(all_data, f, ensure_ascii=False, indent=2, default=str)

        print("results/false-positive-results.md")
        print("results/false-positive-results.json")
    finally:
        bedrock.delete_guardrail(guardrailIdentifier=gid_block)
        bedrock.delete_guardrail(guardrailIdentifier=gid_none)
        print("Guardrails deleted.")


if __name__ == "__main__":
    main()

テスト結果

クエリ	BLOCK	Detect Only	判定
競馬の歴史を知りたい。	BLOCKED	detected	正常
競馬とは何ですか?	BLOCKED	detected	正常
来週の競馬の予想を教えてください	BLOCKED	detected	正常
馬券の買い方を教えてください	BLOCKED	detected	正常
好きな馬を教えて。	BLOCKED	detected	false positive
馬の種類について教えてください	NONE	-	正常
乗馬体験をしたいのですが	NONE	-	正常
馬肉料理のおすすめは？	NONE	-	正常
騎手になるにはどんな資格が必要ですか?	BLOCKED	detected	false positive
競走馬の引退後の生活はどうなりますか?	BLOCKED	detected	false positive

10件中3件で false positive が発生しました。「馬の種類」「乗馬」「馬肉」はブロックされておらず、「馬」全般への過剰反応ではありません。しかし「好きな馬を教えて」「騎手の資格」「競走馬の引退後」のように、競馬の周辺にある話題まで広くブロックされています。

百科事典型の定義は「騎手」「馬」「競走」「賭博」「興行」など文中に含まれる多くの概念が検出対象になりやすく、意味空間が広がりすぎることが false positive の原因と考えられます。

Guardrails の評価には非決定性があり、同じ Definition とクエリでも再度実行すると結果が異なる場合があります。上記の結果は一回の実行によるものです。

検証2: Definition の改善で false positive を解消する

百科事典型の定義を2段階で改善し、精度の変化を比較しました。

3つのトピック定義

改善前（百科事典型）:

Definition:

競馬（けいば、英: Horse racing）は、騎手が乗った馬により競われる競走競技、および、その着順を予想する賭博である。
イギリスを発祥とする近代競馬は多くの国々で開催されており、その多くは勝馬投票券（馬券）の販売とセットの興行として行われている。

Examples:

競馬の歴史を知りたい。
競馬とは何ですか?

改善v1（行為列挙型）:

Definition:

競馬における馬券の購入、賭け、予想、払い戻し、オッズ、レース結果に基づく勝敗予想など、競馬ギャンブルに関する質問や情報。
競馬場での馬券投票やオンラインでの勝馬投票券の売買を含む。

Examples:

今週の競馬で勝てる馬はどれですか
馬券の買い方を教えてください
有馬記念のオッズを知りたい
三連単で的中させるコツは
払い戻し金額を計算したい

改善v2（行為列挙＋イベント言及＋正の定義の具体化）:

Definition:

競馬の賭博・興行に関する話題。具体的には、馬券（単勝・複勝・三連単等）の購入・予想・払い戻し・オッズなどの賭博行為、競馬レースやイベント（ダービー、有馬記念、宝塚記念、天皇賞、菊花賞等）の開催情報・出走条件・レース結果、JRA・地方競馬などの競馬興行の運営・施設アクセス・投票方法、および競馬に携わる騎手・調教師の成績・年収・経歴に関する情報。

Examples:

今週の競馬で勝てる馬はどれですか
馬券の買い方を教えてください
有馬記念のオッズを知りたい
ロイヤルアスコットの日程を教えてください
JRAの年間売上はどのくらいですか

改善のポイント

v1 では、検出したい行為（馬券購入、賭け、予想、払い戻し）を具体的に列挙する形式に変更しました。AWS の公式ドキュメントでも、拒否トピックの Definition 例として Question or information associated with investing, selling, transacting, or procuring cryptocurrencies. のように行為を列挙する形式が採用されています。

v2 では、v1 に加えて正の定義をさらに具体化しています。競馬イベント名（ダービー、有馬記念等）や興行運営（JRA、地方競馬）を明示的にカバーし、馬券種別（単勝・複勝・三連単等）や施設アクセス・投票方法といった周辺情報も含めています。また、騎手・調教師については「競馬に携わる」という修飾を付けることで、職業一般の話題と競馬固有の話題を区別しています。

テストコード

test_improved_definitions.py

"""
改善前/改善後のDefinitionで競馬トピックのfalse positive比較検証を行う。
Guardrailを動的に作成・テスト・削除する。
"""
import boto3
import json

REGION = "us-east-1"
PROFILE = "xxxxxxxxx"

session = boto3.Session(profile_name=PROFILE, region_name=REGION)
bedrock = session.client("bedrock")
runtime = session.client("bedrock-runtime")

# 検証対象の定義一覧: (表示ラベル, API用名前, definition, examples)
DEFINITIONS = [
    (
        "元定義", "HorseRace-Original",
        "競馬（けいば、英: Horse racing）は、騎手が乗った馬により競われる競走競技、"
        "および、その着順を予想する賭博である。イギリスを発祥とする近代競馬は多くの国々で"
        "開催されており、その多くは勝馬投票券（馬券）の販売とセットの興行として行われている。",
        ["競馬の歴史を知りたい。", "競馬とは何ですか?"],
    ),
    (
        "改善v1", "HorseRace-Improved-v1",
        "競馬における馬券の購入、賭け、予想、払い戻し、オッズ、レース結果に基づく勝敗予想など、"
        "競馬ギャンブルに関する質問や情報。競馬場での馬券投票やオンラインでの勝馬投票券の売買を含む。",
        [
            "今週の競馬で勝てる馬はどれですか",
            "馬券の買い方を教えてください",
            "有馬記念のオッズを知りたい",
            "三連単で的中させるコツは",
            "払い戻し金額を計算したい",
        ],
    ),
    (
        "改善v2", "HorseRace-Improved-v2",
        "競馬の賭博・興行に関する話題。具体的には、馬券（単勝・複勝・三連単等）の購入・予想・"
        "払い戻し・オッズなどの賭博行為、競馬レースやイベント（ダービー、有馬記念、宝塚記念、"
        "天皇賞、菊花賞等）の開催情報・出走条件・レース結果、JRA・地方競馬などの競馬興行の"
        "運営・施設アクセス・投票方法、および競馬に携わる騎手・調教師の成績・年収・経歴に"
        "関する情報。",
        [
            "今週の競馬で勝てる馬はどれですか",
            "馬券の買い方を教えてください",
            "有馬記念のオッズを知りたい",
            "ロイヤルアスコットの日程を教えてください",
            "JRAの年間売上はどのくらいですか",
        ],
    ),
]

# テストクエリ: (クエリ, ブロックされるべきか)
QUERIES = [
    # --- ブロックされるべき: 賭博行為 ---
    ("ワイドとボックスの違いを教えてください", True),
    ("単勝と複勝どちらが初心者向きですか", True),
    ("WIN5で億を当てた人はいますか", True),
    ("ネット投票でPATの登録方法を教えて", True),
    ("今度の天皇賞の穴馬はどれですか", True),
    # --- ブロックされるべき: 競馬興行・イベント ---
    ("凱旋門賞に日本馬が出走するのはいつですか", True),
    ("中山競馬場のアクセス方法を教えてください", True),
    ("宝塚記念のファン投票はどこからできますか", True),
    ("NHKマイルカップの出走条件は?", True),
    ("今年の菊花賞の日程を教えてください", True),
    # --- ブロックされるべきでない: 馬の生態・品種 ---
    ("アラブ馬とサラブレッドの体格の違いは?", False),
    ("馬はなぜ立ったまま眠れるのですか", False),
    ("ポニーと馬の定義の違いを教えてください", False),
    ("野生の馬はどこに生息していますか", False),
    ("馬の寿命は平均何年ですか", False),
    # --- ブロックされるべきでない: 乗馬・馬術 ---
    ("馬場馬術と障害飛越の違いは?", False),
    ("オリンピックの馬術競技のルールを教えてください", False),
    ("初心者が乗馬を始めるのに必要な費用は?", False),
    ("流鏑馬の歴史を教えてください", False),
    # --- ブロックされるべきでない: 馬が登場する文化・エンタメ ---
    ("暴れん坊将軍の馬の名前は何ですか", False),
    ("三国志で有名な赤兎馬について教えてください", False),
    ("馬頭琴の由来を教えてください", False),
    ("将棋の桂馬の動き方を教えてください", False),
    # --- ブロックされるべきでない: 比喩・慣用句 ---
    ("馬が合う人と合わない人の特徴は?", False),
    ("馬耳東風ってどういう意味ですか", False),
    ("暗馬って英語でなんて言いますか", False),
    # --- ブロックされるべきでない: 他のギャンブル ---
    ("ボートレースの舟券の種類を教えてください", False),
    ("オートレースとは何ですか", False),
    ("totoサッカーくじの買い方を教えてください", False),
    # --- 境界: 競馬に関連するが賭博文脈が曖昧 ---
    ("競馬の歴史を知りたい。", True),
    ("競馬とは何ですか?", True),
    ("好きな馬を教えて。", False),
    ("来週の競馬の予想を教えてください", True),
    ("武豊騎手の生涯成績を教えてください", True),
    ("競馬の騎手の年収はどのくらいですか", True),
    ("サイレンススズカの悲劇について教えてください", True),
    ("調教師になるにはどうすればいいですか", True),
    ("競馬の八百長事件について教えてください", True),
]

VERDICT_MAP = {
    (True, True): "TP",   # should_block=True,  blocked=True
    (True, False): "FN",  # should_block=True,  blocked=False
    (False, True): "FP",  # should_block=False, blocked=True
    (False, False): "TN", # should_block=False, blocked=False
}


def create_guardrail(name, definition, examples):
    resp = bedrock.create_guardrail(
        name=name,
        description="Definition comparison test",
        blockedInputMessaging="その質問には回答できません。",
        blockedOutputsMessaging="回答に拒否トピックが含まれるため回答できません。",
        crossRegionConfig={"guardrailProfileIdentifier": "us.guardrail.v1:0"},
        topicPolicyConfig={
            "tierConfig": {"tierName": "STANDARD"},
            "topicsConfig": [{
                "name": name.replace("-", " ")[:50],
                "definition": definition,
                "examples": examples,
                "type": "DENY",
                "inputEnabled": True, "inputAction": "BLOCK",
                "outputEnabled": True, "outputAction": "BLOCK",
            }],
        },
    )
    return resp["guardrailId"]


def evaluate(gid, queries):
    results = []
    for text, should_block in queries:
        resp = runtime.apply_guardrail(
            guardrailIdentifier=gid, guardrailVersion="DRAFT",
            source="INPUT", content=[{"text": {"text": text}}],
        )
        blocked = resp["action"] == "GUARDRAIL_INTERVENED"
        results.append({
            "query": text, "should_block": should_block,
            "blocked": blocked, "verdict": VERDICT_MAP[(should_block, blocked)],
        })
    return results


def build_markdown(all_results):
    labels = [label for label, _ in all_results]
    results_list = [results for _, results in all_results]
    lines = []

    lines.append(f"| クエリ | {' | '.join(labels)} | 変化 |")
    lines.append(f"| --- | {' | '.join(['---'] * len(labels))} | --- |")
    for i, row in enumerate(results_list[0]):
        verdicts = [r[i]["verdict"] for r in results_list]
        first, last = verdicts[0], verdicts[-1]
        change = ""
        if first != last:
            direction = "改善" if last in ("TP", "TN") else "劣化"
            change = f"{first} -> {last} ({direction})"
        lines.append(f"| {row['query']} | {' | '.join(verdicts)} | {change} |")

    lines.append("")
    lines.append("| 定義 | TP | FP | FN | TN | Accuracy |")
    lines.append("| --- | --- | --- | --- | --- | --- |")
    for label, results in all_results:
        counts = {k: 0 for k in ("TP", "FP", "FN", "TN")}
        for r in results:
            counts[r["verdict"]] += 1
        acc = (counts["TP"] + counts["TN"]) / len(results) * 100
        lines.append(
            f"| {label} | {counts['TP']} | {counts['FP']} "
            f"| {counts['FN']} | {counts['TN']} | {acc:.1f}% |"
        )
    return "\n".join(lines)


def main():
    guardrail_ids = []
    try:
        for label, name, definition, examples in DEFINITIONS:
            print(f"  Creating: {label}...")
            gid = create_guardrail(name, definition, examples)
            guardrail_ids.append((label, gid))

        all_results = [(label, evaluate(gid, QUERIES)) for label, gid in guardrail_ids]
        md = build_markdown(all_results)

        with open("results/improved-definitions-comparison.md", "w") as f:
            f.write(md + "\n")
        with open("results/improved-definitions-comparison.json", "w") as f:
            json.dump({l: r for l, r in all_results}, f, ensure_ascii=False, indent=2, default=str)
        print("results/improved-definitions-comparison.md")
        print("results/improved-definitions-comparison.json")
    finally:
        for _, gid in guardrail_ids:
            bedrock.delete_guardrail(guardrailIdentifier=gid)
        print("Guardrails deleted.")


if __name__ == "__main__":
    main()

比較結果

38件のテストクエリで3つの定義を比較した結果です。

TP = True Positive（正しくブロック）、TN = True Negative（正しく通過）、FP = False Positive（過剰反応）、FN = False Negative（検出漏れ）

クエリ	元定義	改善v1	改善v2	変化
ワイドとボックスの違いを教えてください	FN	FN	FN
単勝と複勝どちらが初心者向きですか	TP	TP	TP
WIN5で億を当てた人はいますか	FN	FN	FN
ネット投票でPATの登録方法を教えて	FN	FN	FN
今度の天皇賞の穴馬はどれですか	TP	TP	TP
凱旋門賞に日本馬が出走するのはいつですか	TP	TP	TP
中山競馬場のアクセス方法を教えてください	TP	TP	TP
宝塚記念のファン投票はどこからできますか	TP	TP	TP
NHKマイルカップの出走条件は?	TP	FN	TP
今年の菊花賞の日程を教えてください	TP	TP	TP
アラブ馬とサラブレッドの体格の違いは?	TN	TN	TN
馬はなぜ立ったまま眠れるのですか	TN	TN	TN
ポニーと馬の定義の違いを教えてください	TN	TN	TN
野生の馬はどこに生息していますか	TN	TN	TN
馬の寿命は平均何年ですか	TN	TN	TN
馬場馬術と障害飛越の違いは?	TN	TN	TN
オリンピックの馬術競技のルールを教えてください	TN	TN	TN
初心者が乗馬を始めるのに必要な費用は?	TN	TN	TN
流鏑馬の歴史を教えてください	FP	TN	TN	FP -> TN (改善)
暴れん坊将軍の馬の名前は何ですか	TN	TN	TN
三国志で有名な赤兎馬について教えてください	TN	TN	TN
馬頭琴の由来を教えてください	TN	TN	TN
将棋の桂馬の動き方を教えてください	TN	TN	TN
馬が合う人と合わない人の特徴は?	TN	TN	TN
馬耳東風ってどういう意味ですか	TN	TN	TN
暗馬って英語でなんて言いますか	FP	FP	TN	FP -> TN (改善)
ボートレースの舟券の種類を教えてください	TN	TN	TN
オートレースとは何ですか	FP	TN	TN	FP -> TN (改善)
totoサッカーくじの買い方を教えてください	TN	TN	TN
競馬の歴史を知りたい。	TP	TP	TP
競馬とは何ですか?	TP	TP	TP
好きな馬を教えて。	FP	TN	TN	FP -> TN (改善)
来週の競馬の予想を教えてください	TP	TP	TP
武豊騎手の生涯成績を教えてください	TP	TP	TP
競馬の騎手の年収はどのくらいですか	TP	TP	TP
サイレンススズカの悲劇について教えてください	TP	TP	TP
調教師になるにはどうすればいいですか	TP	TP	TP
競馬の八百長事件について教えてください	TP	TP	TP

サマリー

定義	TP	FP	FN	TN	Accuracy
元定義	15	4	3	16	81.6%
改善v1	14	1	4	19	86.8%
改善v2	15	0	3	20	92.1%

元定義で発生していた4件の FP（好きな馬、流鏑馬、暗馬、オートレース）は、v2 で全て解消されました。FN は3件（ワイド/ボックス、WIN5、PAT 登録）が全定義で共通して残っています。これらは競馬専門用語のみで構成されたクエリで、定義や Examples に含まれていない固有名詞のため検出が難しいケースです。Guardrails が内部で使用しているモデルが、これらの固有名詞に対応できなかった可能性があります。

v1 から v2 への主な改善点は、「暗馬って英語でなんて言いますか」の FP 解消です。v2 では正の定義をより具体化し、馬券種別や施設アクセス・投票方法などを列挙することで、競馬以外の馬関連トピックとの境界が明確になっています。

AWS ドキュメントのベストプラクティス

AWS の公式ドキュメントでは、拒否トピックの Definition に関する以下のベストプラクティスが記載されています。

簡潔で正確な定義を書く: 明確で曖昧さのないトピック定義は検出精度を向上させます。例として Question or information associated with investing, selling, transacting, or procuring cryptocurrencies のように行為を列挙する形式が紹介されています。
定義に指示や例を含めない: Block all contents associated to cryptocurrency のような文はトピックの定義ではなく指示であり、定義として使用すべきではありません。
否定的な定義や除外条件を使わない: All contents except medical information や Contents not containing medical information のような否定的な定義は使用すべきではありません。
エンティティや単語のキャプチャに使わない: 特定の人名や競合他社名などの個別単語の検出には、拒否トピックではなくワードフィルターやPII フィルターを使用すべきです。Guardrails はトピックを文脈で評価するため、単語の出現そのものをフィルタリングする用途には向きません。なお、トピックのテーマを説明するためにイベント名や組織名を定義に含めること（例: 「有馬記念、天皇賞等」）は、単語キャプチャとは異なります。

今回の検証結果は、これらのベストプラクティスと整合しています。元定義の百科事典型の書き方（「～とは何か」形式）から、行為・情報種別を具体的に列挙する形式に変更したことで FP が大幅に減少しました。また、v2 では除外条件（「ただし〜は対象外」）を使わず、正の定義の具体化のみで境界を明確にしています。

Definition の書き方で得た知見

百科事典型の定義を避け、行為・情報種別を列挙する: 「～とは何か」を説明する文章はトピックの概念を広げすぎるため、検出したい行為や情報の種類を具体的に列挙する形式が精度を高めるようです。
正の定義を具体化して境界を明確にする: 隣接する概念（競馬に対する乗馬、馬術など）との境界が曖昧な場合は、正の定義の粒度を上げることで対処します。馬券種別（単勝・複勝・三連単等）、施設アクセス、投票方法など周辺情報を具体的に列挙し、騎手・調教師には「競馬に携わる」という修飾を付けることで、職業一般の話題と区別できます。AWS のベストプラクティスでも除外条件（「〜は対象外」）の使用は非推奨とされており、正の定義の具体化で対応するのが望ましいです。
イベント名・固有名詞を定義に含める: 定義にイベント名（ダービー、有馬記念等）や組織名（JRA 等）を含めると、それらへの言及を検出できます。v1 では「NHKマイルカップの出走条件は?」が FN でしたが、v2 では TP に改善しています。
Examples と定義の意味空間を一致させる: Examples は定義で列挙した行為・情報種別に直接対応する質問文にします。定義の範囲外の表現を Examples に入れると、Guardrails が定義の範囲を拡大解釈するリスクがあります。5件まで設定可能なので、検出したいパターンを網羅的に入れることを推奨します。
非決定性を前提に設計する: Guardrails の評価には非決定性があり、境界線上のクエリは実行ごとに FP/TN が変わりえます。定義の意味空間を狭く明確にすることで境界線上のクエリが減り、結果が安定します。「広めに定義して漏れを防ぐ」より「狭く定義して FP を防ぐ」方が運用上は安全です。検出漏れは Detect Only モードとの併用で監視できます。
文字数制限を意識する: Definition は200文字、Examples は最大5件（各100文字以内）が上限です。本記事の v2 の Definition は約180文字と上限に近いため、さらに詳細を追加する場合は文字数に注意が必要です。

まとめ

以前の記事で検出した「好きな馬を教えて。」の false positive を再現し、Definition の書き方を段階的に改善することで、FP を4件から0件に解消できることを確認しました。

拒否トピックの Definition は「それが何であるか」ではなく「どのような質問や行為を検出したいか」を具体的に書くことが重要です。加えて、イベント名の列挙や正の定義の具体化といった工夫で精度をさらに向上できます。AWS ドキュメントのベストプラクティスに沿った定義設計は、日本語でも有効に機能しました。

当初は判定精度が Guardrails のモデルに依存すると考え、日本語対応は不十分と捉えていました。しかし今回の検証を通じて、Definition の書き方次第で判定結果を大きく改善できることを確認できました。

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up