この記事の目的
本記事は2023/11/01〜2024/01/23の間に開催されたDetect AI Generated Textコンペの振り返り記事です。
今回の課題は「与えられた文章が生成AIによるものか?それとも人間が実際に書いたものか?」を当てるというものです。
Q. クイズ
皆さんは次の二つの文章どちらがAIでどちらが人間のレポートか判別つきますか?
お題:「電気自動車の発展について注目すべき点をまとめ、小論文を書きなさい」
回答1
電気自動車の進化において、最も注目すべき要素はバッテリー技術の進化です。例えば、2030年には期待される固体電池技術は、航続距離の向上と充電時間の短縮に寄与する見込みです。これにより、一般ユーザーにとってもEVがより利便性の高い選択肢となります。バッテリー技術の進歩は、従来車との性能差を縮め、消費者がEVを積極的に選ぶきっかけとなります。そのため、EV市場の拡大と継続的な発展において、バッテリー技術の進歩は不可欠です。
回答2
今後の電気自動車(EV)の発展について、注目すべきは販売価格の低下です。現在、EVの市場規模は年々拡大しているものの、その価格はガソリン車に比べ非常に高価であり、富裕層にしか行き届いていないという課題に直面しています。市場競争や政策による補助などを通じ、販売価格が低下することでより多くの人がEVの購入を検討し、ガソリン車からの乗り換えが起こると考えられます。したがって今後のEVの発展には販売価格の低下は必須の要素と言えます。
解答はこちら
1:生成AI 2:筆者コンペのモチベーション
- 宿題をChatGPTにやらせる
- 就活のESを書かせる
- 詐欺メールの文面の高度化
など生成AIの悪用について議論がある現状、「与えられたテキストがLLMによるものかどうか判定する技術」は大事になりそうです1。
コンペで主流となった解法
1. tf-idfベクトル&勾配ブースティング
今回のコンペで最も採用されていたのが「tf-idfによる文章のベクトル化」と「勾配ブースティングによるベクトルの分類」です。
tf-idfベクトル化によって、入力の文章に頻出する重要なパターンをベクトルで表現し、このベクトルをlightgbm等の分類器にかける流れです2 。
非常に精度が高く、学習も軽いためコンペ上位の解法含め多くの人が採用していた模様です。
2. 各種LLMのfine tune
transformerやmistral 7bなど多数のモデルが利用されていました。しかし、モデルの種類による精度差は今回重要なファクターではなかったとの報告34 が多かったです。
コンペ攻略のキーポイント
データセットの拡充
本コンペティションでは、上述にもあるとおりモデルの精度やハイパラ調整よりもデータセットの拡充が大きな戦略の要でした。
評価されているディカッションも皆データセット周りですね!
データの作成方法
-
https://news.yahoo.co.jp/articles/2add11397898873d64b988ee27a58dd47c9f9de6 ↩
-
https://www.kaggle.com/code/x75a40890/ai-generated-text-detection-quick-baseline ↩
-
https://www.kaggle.com/competitions/llm-detect-ai-generated-text/discussion/470395 ↩
-
https://www.kaggle.com/competitions/llm-detect-ai-generated-text/discussion/470395 ↩