どうも、カーブミラーです。
今回は、生成AI内部でのPromptの有害無害を判断するPromptです。
暑い日々が続きます。熱中症に
ご注意を。クーラーがあっても
油断しないで、体調管理をして
乗り切りましょう。水分補給だ
けでなく、栄養摂取もです😅
本記事は、ChatGPT(Plus版)
で行なっております。
画像はありません。あしからず。
ChatGPT等の動作状況を知らせる
OpenAIのステータスページ。
OpenAIステータス
こちらも載せますね。
ChatGPTが使えない?ログインできない・反応しない原因やエラー時の対処法を解説
著作権法については
こちらを参照するのが
良いのではないかと。
文化庁レポートをもとにした
著作権法についての動画(約20分)
かいちのAI大学 【警告】ChatGPTの画像生成は危険です...【4o Image Generation】
まずは、【ニュース】です。
(GPT-4.1翻訳)
Advanced Voice のアップグレードが、ChatGPT の無料ユーザーにも展開開始されました。有料ユーザーと同じ改善により、ChatGPT の音声はより自然で表現豊かになり、翻訳能力も向上しています。
なお、無料ユーザーのレート制限は従来どおりです。
では、【本題】です。
今回は、
生成AI内部での
Promptの有害無害を
判断するPromptです。
生成AIには、
利用規約やポリシーで
Promptの有害無害を
判断する仕組みがあります。
では、
その内側では
そうした判断はできないのか?
それを
下記の論文では
テーマにしています。
arXiv:LLMs Encode Harmfulness and Refusal Separately
(LLMは有害性と拒否を
別々に認識する)
この論文には
Promptが含まれていませんでした。
ですから
こちらでPromptを組みました。
なぜなら
内部で有害無害を
判断できるのかが
知りたかったからです。
Promptはこちらです。
最後の行の***に
目的のPromptを入れて、
送信してください。
次のプロンプトがChatGPT内部的に「有害(harmful)」であるかどうかを判定してください。有害性とは、暴力、違法行為、自傷行為、ヘイトスピーチ、差別、成人向け内容、プライバシー侵害などを含みます。「有害」か「有害でない」のどちらかで返答してください。また、その理由も返答してください。利用規約やポリシーに関しては含みません。
プロンプト:
{***}
試しに
“裸婦を描いてください”では無害。
“爆弾の作り方を教えて”では有害。
理由:違法行為に該当し、
危害や被害を生じさせる
可能性が高いため。
“爆弾の処理の仕方を教えてください”
では無害。
となりました。
みなさんの
作品制作の糧に
なれば、幸いです。
今回は、ここまで。