はじめに
ErogameScapeにはSQLを学ぶためのページがあります。
これを学んで頂ければ、ErogameScapeのデータベースから必要な情報を自分で持ってこられると思っています。
しかし、それなりにハードルが高いので、取得してみたいデータはあるけど、SQLがわからないからデータを取得できない方もいらっしゃるのかなあと思っています、たぶん。
そこで、ChatGPTを使って自然言語からSQLを生成して、ErogameScapeからデータを取得できないだろうか、と思って試してみました。
具体的にはpg_dump DB名 -s
でダンプしたテーブル定義をそのまま食わせてから、例えば「brandlistテーブルからブランドの情報を取得するSQLを作成してください。」のように指示て正しいSQLが生成されるかどうかを試しました。
作ったもの
SQLはこちらから実行できます。
ChatGPT Plusでないと使えません(ChatGPTに課金していないと使えません)。
分かったこと
情報としてテーブルのリレーションを渡す必要がある。
例えば「userreviewテーブルのgame列はgamelistのid列と対応している」という情報を渡す必要があります。
渡さなかった場合、外部キーがわからないので正しいSQLが生成されない確率が高いです。
事前にテーブル定義(pg_dump DB名 -s
の出力)を与えていて、その定義に外部キーの情報も入っているのですが高い確率で外部キーを適切に判断することができません。
対処としてテーブル一覧をKnowledgeに与えることにしました。具体的にはテーブル一覧を右クリックでhtmlとして保存して、そのままアップロードしました。
これでだいぶリレーションの情報を勝手に判断してくれるようになったのですが、ちょいちょい判断できないことがあります。
例えば以下のようなケースです。
このクエリは間違っています。
gamelistとcreaterlistをくくりつけているのはshokushuテーブルなのでテーブル"public.createrlist"とテーブル"public.gamelist"を結びつけているのはテーブル"public.shokushu"であるという情報を追加で与えます。
リレーションの情報さえ渡せば正しいSQLを生成してくれます。
事前情報として、ある列に格納されている情報が自然言語の表現だとどうなるかの対応を渡すと、いい感じに解釈してくれて自然な表現でもSQLを作成してくれる
テーブル一覧をKnowledgeに与えることで自然な表現でもSQLを作成してくれるようになりました。
例えば、
2022年に発売されたゲームでユーザーにプレイされた数がもっとも多かった順から10個抽出する。
ついでにクリアをあきらめたユーザーの総数の情報も付け加える。
というSQLを作成してもらいたい場合、pg_dumpの出力からは、プレイという情報、あきらめたという情報がどこに格納されているかわからないので、ユーザーがプレイしたという情報はuserreviewテーブルのplayというbolean型の列に、あきらめたという情報は同じテーブルのgiveupというboolean型の列に格納されているという指示を与える必要があります。
テーブル一覧をKnowledgeに与えることで、以下のように自然な表現で書いても、高い確率で正しいSQLを生成できるようになりました。
たまに正しくないSQLを生成するので、その場合は追加で指示をする必要があります。
威力を発揮するのは集計
SQLで集計をする場合、CASE式を使います。自分はCASE式を書くのが面倒で嫌いです。
そんな面倒な集計、いい感じにCASE式を使って書いてくれます。
以下は、
ゲーム名「クリミナルボーダー 3rd offence」にくくりつけられたpovをpovごとに出力するSQLを生成してください。
出力する項目は以下の通りとします。
povのid,povのtitle,rankがAの総数,rankがBの総数,rankがCの総数
並び順はくくりつけられたpovの総数の降順にしてください。
という指示を与えた例です。
1つ目の回答はSQLを実行したらエラーになったので、そのエラーをそのまま貼り付けて正しいSQLを出力させています。
テキストマイニングで探るエロゲー批評の昔と今では、年別のレビュー投稿数が掲載されています。年別のレビュー投稿数を出力するSQLを生成させてみます。
同人のエロゲーとは何かを与える必要がありましたが、いい感じにSQLを作成できました。
自分はWINDOW関数を使い慣れていないのでいつも四苦八苦するのですがWINDOWS関数が必要なケースもいい感じにSQLを作成してくれます。
感想
SQLをまったく学んだことがないという方には使えない気がしますが、簡単なSELECT文が発行できて、テーブルの定義を見ればどこに何が格納されるか理解できて、どうテーブルをJOINすればいいかが分かって、SQLでやりたいことがある方にとっては使えるかもしれないと思います。