はじめに
モデレーションとはなんでしょうか?コトバンクでしらべてみました。
1 節度。適度。穏健。中庸。
2 ブログやSNS、インターネット上の記事に投稿された読者によるコメントに対し、管理者が内容をチェックしたり、別の読者が評価付けをしたりすること。また、その仕組み。不適切な投稿を除外するはたらきがある。モデレーション機能。
コトバンクから引用
つまりモデレーションとは、不適切な内容を排除して節度を保った使い方をするためのものです。
Difyでは、キーワードでのモデレーション、OpenAIでのモデレーション、自前で作ったモデレーションAPIでモデレーションの3つができます。
使い所と、キーワードとOpenAIでのモデレーションの方法を書いていきます!
モデレーション機能の使い所
ざっとモデレーションを使うシーンが思い付きます。
※いくつか内容的にはかぶるものがありますが、意味的には異なるので分けて書いているものがあります。
- 不適切なコンテンツの排除
- 暴力、性的内容、違法行為などを検出可能
- カスタムキーワードで特定の不適切な表現をフィルタリング可能
- 法令遵守
- カスタムキーワードや敏感語審査拡張で、特定の法的要件に対応可能
- ブランド保護
- カスタムキーワードを使用して、ブランドに関連する不適切な表現を検出可能
- セキュリティ対策
- プロンプトインジェクションを起こしそうな一部の悪意のある内容を検出可能する
- コミュニティガイドラインの遵守
- カスタムキーワードや敏感語審査拡張で、特定のガイドラインに沿ったモデレーションが可能
- 文化的配慮
- カスタムキーワードを使用して、文化的に敏感な表現をフィルタリング可能
考えれば考えるほどモデレーションは必要なものですね。
モデレーション設定方法
では実際にDifyで設定してみましょう。
以下の画像の手順でモデレーション機能を有効にしてください。
キーワードでモデレーション
では最初にキーワードでモデレーションしましょう。
今回は「きのこの山」に規制をかけたいと思います。以下のように設定してください。
では試してみましょう!
「きのこの山とたけのこの里はどちらが好きですか?」と聞いてみてください。
しっかり規制が入ってますね。「きのこの山」が燃えたことを教えてくれました。
OpenAIでモデレーション
次に、OpenAIのモデレーションを使ってみましょう。
こちらがモデレーションしてくれる内容は決まっています。以下を確認してみてください。
モデレーションする内容(日本語版)
カテゴリー | 説明 |
---|---|
hate | 人種、性別、民族、宗教、国籍、性的指向、障がいの有無、カーストに基づく憎悪を表現、煽動、または促進するコンテンツ。保護されていないグループ (チェス プレイヤーなど) を対象とした憎悪的なコンテンツは嫌がらせです。 |
hate/threatening | 人種、性別、民族、宗教、国籍、性的指向、障害の有無、またはカーストに基づいて、対象グループに対する暴力または深刻な危害も含む憎悪的なコンテンツ。 |
harassment | あらゆる対象に対する嫌がらせの言葉を表現、煽動、または促進するコンテンツ。 |
harassment/threatening | 対象者に対する暴力や重大な危害も含む嫌がらせコンテンツ。 |
self-harm | 自殺、自傷行為、摂食障害などの自傷行為を促進、奨励、または描写するコンテンツ。 |
self-harm/intent | 発言者が自殺、自傷行為、摂食障害などの自傷行為を行っている、または行うつもりであることを表明するコンテンツ。 |
self-harm/instructions | 自殺、自傷行為、摂食障害などの自傷行為を奨励したり、そのような行為を行う方法についての指示やアドバイスを与えるコンテンツ。 |
sexual | 性行為の描写など、性的興奮を喚起することを目的としたコンテンツ、または性的サービス(性教育およびウェルネスを除く)を宣伝するコンテンツ。 |
sexual/minors | 18歳未満の個人が含まれる性的コンテンツ。 |
violence | 死、暴力、身体的傷害を描写するコンテンツ。 |
violence/graphic | 死、暴力、身体的傷害を詳細に描写したコンテンツ。 |
では以下のように設定してください。
では実際に規約に違反しそうなことを言ってみます。
あんまり悪いことを言うとOpenAIからBANされてしまう可能性があるので、みなさんは入力注意です!!
いい感じにモデレーションされてます!いいですね!
最後に
Xやってるので気になる方はフォローお願いします。