生成AIはもう嘘をつかない？ハルシネーション率で見る最新AIモデルの進化

Last updated at 2025-05-10Posted at 2025-05-10

はじめに

「生成AIは嘘をつくから信用できない」——そんな印象を持っている方はまだ多いかもしれません。実際、ChatGPTなどの対話型AIが事実と異なる情報（=ハルシネーション）を生成することは以前から問題視されてきました。

しかし、AIは日々進化しています。今では「どのモデルがどのくらい嘘をつくのか？」を客観的に比較する指標まで整備されています。この記事では、その進化を数値で確認できるGitHubプロジェクトと、その結果を紹介しているXの投稿をご紹介します。

まず「ハルシネーション（hallucination）」とは、生成AIが存在しない事実や誤情報をもっともらしく語ってしまう現象を指します。

たとえば、

といったことが起こりえます。

以下のGitHubリポジトリでは、主要な生成AIモデルの「ハルシネーション率」を比較したランキングが公開されています：

このランキングは、以下のような評価軸でモデルを比較しています：

以前までは20〜30%のハルシネーション率だったのが、最新モデルでは1%前後にまで改善されています。

生成AIが「嘘をつく」という印象は、もはや過去のものになりつつあります。
最新のモデルは、適切なプロンプト設計とフィルタリングを前提にすれば、極めて高い信頼性を持っています。

もし業務や学習に導入することをためらっている方がいたら、ぜひこのデータを一度確認してみてください。