chatGPTのプログラミング質問回答は52%が誤り

Last updated at 2024-11-05Posted at 2024-06-01

タイトルは以下の論文
https://arxiv.org/abs/2308.02312
の調査結果です。

要約の要約

StackOverflowで517のサンプルでChatGPTのプログラミングに関する質問回答は
・52%は誤情報
・78%は人間の解答と矛盾
・35%が包括性にかけ
・77%が冗長、無関係、不要なコードが入っている
そして、39%の人が誤情報に気づかずAIの回答をそのまま使ってしまっている。

論文要約。文中のSOとはStackOverflowのこと。

概要

研究の背景：
- プログラマーはAPIの学習、バグの修正、コードや概念の理解などのためにオンラインリソースを頻繁に利用します。これにはSOのようなコミュニティQ&Aプラットフォームが含まれます。
- 最近のLLM（大規模言語モデル）の登場により、プログラマーのオンライン支援行動が変わりつつあります。特に、2022年11月にリリースされたChatGPTは多くの注目を集めています。
- ChatGPTの人気にもかかわらず、そのプログラミング質問に対する回答の特徴を評価する包括的な研究は行われていませんでした。
研究方法：
- SOに投稿された517のプログラミング質問に対するChatGPTの回答を収集し、手動で分析しました。
- ChatGPTの回答の正確性、一貫性、包括性、簡潔さを評価し、SOの人間の回答と比較しました。
- 大規模な言語分析およびユーザー調査を実施し、ChatGPTの回答の言語的特徴とユーザーの評価を理解しました。
主な結果：
- ChatGPTの回答の52%には誤情報が含まれており、77%が冗長です。
- ユーザー調査の参加者は、包括性とよく整った言語スタイルのために、回答の35%のケースでChatGPTの回答を好みましたが、回答の39%のケースで誤情報を見逃しました。
- ChatGPTの回答は、人間の回答に比べて形式的で分析的な言語を使用し、ポジティブな感情をより多く含んでいます。
結論：
- ChatGPTは多くのケースで優れたパフォーマンスを発揮する一方で、頻繁にエラーを犯し、不要に長い回答を生成します。
- ChatGPTの回答には豊富な言語的特徴があり、ユーザーは時折その誤りや不整合を見逃すことがあります。
- この研究は、プログラミングにおけるChatGPTの使用に関連する課題とリスクを示し、AI支援プログラミングのための新しいインタラクションと計算方法の設計の機会を強調しています。

調査結果の概要

ChatGPTの回答の正確性と品質：
- 正確性：ChatGPTの回答の52%には誤情報が含まれています。
- 一貫性：78%の回答が人間の回答と一貫していません。
- 包括性：ChatGPTの回答の65%は包括的ですが、35%は不十分です。
- 簡潔さ：77%の回答が冗長です。
誤りの内訳：
- 概念的誤り：54%
- 事実的誤り：36%
- コードの誤り：28%
  - 内訳：誤ったロジック（48%）、誤ったAPI/ライブラリ/関数の使用（39%）、不完全なコード（11%）、文法エラー（2%）
- 用語の誤り：12%
質問の種類による影響：
- 質問の人気度：人気のある質問や古い質問に対する回答は、他の質問に比べて誤りが少ない。
- 質問の種類：デバッグに関する質問は、他の質問に比べて一貫性が低いが、冗長性は少ない。
言語的特徴：
- ChatGPTの回答は、より分析的で自信に満ちた言語スタイルを持ち、ポジティブな感情をより多く含んでいます。
- 人間の回答は、より即興的で個人的な観察や洞察が多く含まれます。
感情分析：
- ChatGPTの回答の85.35%がポジティブな感情を示し、1%未満がネガティブな感情を示しています。
- 人間の回答の73.30%がポジティブな感情を示し、1.05%がネガティブな感情を示しています。
ユーザー調査結果：
- ユーザーはChatGPTの回答を34.82%のケースで好みましたが、そのうち77.27%は誤情報を含んでいました。
- ユーザーは正確性、簡潔さ、有用性の面で人間の回答をChatGPTの回答よりも高く評価しました。

これらの結果は、ChatGPTが多くのケースで優れたパフォーマンスを発揮する一方で、頻繁にエラーを犯し、冗長な回答を生成することを示しています。ユーザーはChatGPTの包括的で整った言語スタイルを評価する一方で、誤情報を見逃すことが多いという課題が明らかになりました。

エビデンスなしの無責任な感想

体感でもそのくらいかなぁと思う。
正常系しか必要ないコードの場合はかなりの精度で仕事をしてくれると思う。（たまにハルシネーションするがそれは時間の問題で改善していくと思う。）

しかしながら準正常系などは人間がフィードバックを与えたり、こっちで手直ししたりしないと動かないことが多い。

この論文で出てきた数値達は今後のAIの進化である程度までは改善してくると思うが、どこかで頭打ちにはなると考える
それはAIの問題というよりは人間の指示の限界の問題だと思う。

AIが人間の仕事を完全補完して奪うのではなく、AIと協働できる人間が仕事を奪っていく。これに尽きる。

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up