昨日、Kaggleで「LLM - Detect AI Generated Text」というコンペが開始されました。
タイトルの通りに、提供された文章が学生によって書かれたものなのか、それともAIによって生成されたものなのかを判別するコンペです。(outputとしては、文章が生成された可能性は何パーセントなのかという感じです。)
テーマは全部で7つありますが、学習データには2つのテーマからのデータ(約1300件)しか入ってないので、
残りの5つのテーマに関するデータセットは自分で作る必要があります。
私が考えたやり方としてはまずlangchainのoutputparserとGPT4を繋がってデータセット作って、
それで文章をAIか学生か分類するモデルをfinetuningしたいと思います。
(最近langchainでLLMを段階的に思考させる手法を学びましたので、このコンペでは活用できると考えています。)
ちなみに、このコンペでは多分RAGはあまり重要ではないと思います。精度の差はfinetuningとpromptによって生じると考えられますね。まだ始まったばかりなので、もう少し様子見て、締め切りの1ヶ月前から参加してみたいと思います。