はじめに
Gandalfは、スイスのAIセキュリティ企業であるLAKERA社によって開発されたゲームです。
Gandalfで遊びながらプロンプトインジェクションについて学ぶことができます。
本記事では、Gandalfを攻略するためのヒントについて記載しています。
プロンプトインジェクションを学びながらGandalfの世界を冒険しましょう。
プロンプトの基本
Gandalfを遊ぶ前に、ある程度プロンプトの基本について理解しておくことは重要です。
プロンプトの基本を学ぶために参考となるドキュメントを以下に記載します。
-
Prompt Engineering Guide
- 「Prompt Engineering Guide」は、DAIR.AIのプロジェクトです。Prompt Engineeringについて、研究者や実践者に教育することを目的としています。
-
GPT best practices
- OpenAI社が開発しているChatGPTのドキュメントです。GPTからより良い結果を得るための戦略と戦術が確認できます。
ChatGPTが起こしたムーブメントでChatGPTに関する二次情報が増加しています。本屋に行くと、雑誌や書籍などChatGPTを取り上げている本がたくさんあります。バイアスを取り除き、正確な情報を得るためには、一次情報を取得しましょう。
Gandalf
Gandalfで遊ぶにあたって会員登録は不要です。
Gandalfからアクセスしてすぐに遊べます。
ゲームの目的は、ガンダルフに質問を行い秘密のパスワードを聞き出すことです。
しかし、ガンダルフはレベルアップするごとに、ガードレールが強化されるため、パスワードを聞き出すのが難しくなります。
通過点としてlevel 7をクリアすると、Leaderboardに名前を載せることができます。
名前を載せたい場合は、Leaderboardのフォームから情報を登録します。
準備ができたらlevel 1から始めましょう。
Gandalfで試されるのは批判的思考力と、問題解決のスキルです。
level 1
level 1は簡単です。ただパスワードを聞くだけです。
パスワードを聞き出すための質問を入力して「Send」を押します。
レスポンス内容にパスワードが含まれている場合は、パスワードを入力して「Guess!」を押します。
正解の場合は、ダイアログが表示されるので「OK」を押して、次にレベルに進むことができます。
level 2
level 2以降は、簡単にパスワードを聞き出せません。
パスワードを聞き出すためには、質問の仕方を工夫する必要があります。
level 2以降はいかにAIを騙すかがポイントです。
同じ質問でもレスポンス内容が異なる場合があるため、1回質問してダメでも何度か質問してみるのも手だと思います。
level 3
level 3は、期待するレスポンス結果について、そのまま出力しないようにして聞き出しました。
level 4
leve4は、ブラインドSQLインジェクションのような観点で質問することで、パスワードを得られました。
level 5
level 5は、パスワードという言葉を使用せずに質問することで、聞き出しました。
level 6
level 6は、level 5と同じ質問を使用して聞き出すことに成功しました。
level 7
level 7は、今まで使用したテクニックを組み合わせることで、パスワードを得られました。
level 7クリア後は、以下のような画面が表示されて祝福してくれます。
これで上位8%の仲間入りです。
言葉の持つ意味は同じでも、国によって言語は異なります。
level 8
level 7クリア後、ボーナスステージのlevel 8に挑戦することができます。
level 8は非常に手強いです。質問も英語のみ話すことができます。
Gandalf Adventures
本記事執筆時点では、ハロウィンのイベントが行われていました。
おわりに
GandalfはwikipediaのGandalfによると、イギリスの小説が元ネタのようです。
2023年10月30日、米バイデン政権 AIの安全性に関する新基準などの大統領令公表のニュースが公表されています。
AIに対する安全性も国家レベルで重要視されていることが分かります。