はじめに
ふと見かけた以下のニュースの中で、気になる記述を見かけたのがきっかけで書いた記事です。
●OpenAIの新モデル「o1-preview」、賢くなってるけど知ったかぶりもする | ギズモード・ジャパン
https://www.gizmodo.jp/2024/09/openai-releases-its-highly-anticipated-gpt-o1-model.html
気になった部分は、具体的には、以下の赤枠で囲んだところ(OpenAI のシステムカードという内容)です。
そして、その先に書いてあった情報がさらに気になって、この記事を書きました。
特に気になった内容
「さらに気になった内容」というのは、OpenAI が書いた「o1 のハルシネーションの評価」という部分です。
上記の記事に出てきていたリンクから先へと進んでいくと、OpenAI 公式のページ・文書が出てきたのですが、その文書に「Hallucination Evaluations」という部分がありました。
今回の記事では、このハルシネーションの評価について書かれている項目の内容をとりあげてみます(この「OpenAI o1 System Card」全体の分量からすると、かなり短い内容になります)。
「OpenAI o1 System Card」を見ていく
上で書いた、OpenAI のページ(リンク先)というのは、以下のページになります。
●o1 System Card | OpenAI
https://openai.com/index/openai-o1-system-card/
冒頭には 「This report outlines the safety work carried out prior to releasing OpenAI o1-preview and o1-mini, including external red teaming and frontier risk evaluations according to our Preparedness Framework.」
と書いてあります。
ざっくりとした意味は「OpenAI の o1-preview・o1-mini をリリースする前に実施した、リスク評価などの概要をまとめたもの」という感じになるかと思います(外部のレッドチームが関わったりしたもののようです)。
さらにこのページを下へ進むと、PDF の文書へ誘導されます。
自分が取り上げるのは、その文書内の内容です。
この文書は、開いてみると 43ページほどの内容になっていました。
ハルシネーションに関する部分を見てみる
あまりにページ数が多いので、気になるキーワード・タイトルを見つけて部分的に見てみようとしたのですが、そこで目に飛び込んできたキーワードが「ハルシネーション」でした。
その中でも、以下の「3.1.4 Hallucination Evaluations」という項目が気になって、内容を見ていきました(その項目の分量が少ないのもあったので)。
評価方法の説明
上に画像で貼り付けた内容では、ざっくりと以下のような、評価方法の説明が書いてありました。
- o1-preview と o1-mini について、ハルシネーションを引き起こすことを目的とし、以下の評価を行った
- SimpleQA: 短い答えとなる、4000 の事実を探す質問について、多様なデータセットを用いて回答モデルの精度を測定
- BirthdayFacts: 誰かの誕生日を尋ねるデータセットで、モデルが間違った誕生日を推測する頻度を測定
- Open Ended Questions: 例えば、特定の人物の経歴を書かせるなど、任意の事実を生成させるデータセット。ウィキペディアと照合して、どれだけ誤った記述が生成されたかを評価
評価結果
さらに、上記の説明が書いてある部分の続きを見ていくと、評価結果の表や説明などが書かれtいる部分がありました。
掲載されていた表は、以下のとおりです。
この表の前後に説明文があったので、そこも見ていきます。
説明文
まずは、表の前に書いてある内容です。
ここでは、表の中で書いている評価指標が説明されていました。
表2が、o1 のモデル、GPT-4o、GPT-4o-mini の評価結果。
考慮する評価指標は 2つで、「accuracy(質問に正しく答えたか)」と「hallucination rate(ハルシネーションが起こった割合)」。
また、「Open Ended Questions」の平均不正解数についても結果を記載(スコアが低いほどパフォーマンスが高い)
そして、表の後に書いてある内容も見てみます。
内容は以下の通り、評価結果とその他の説明が書かれていました。
評価結果によると、o1-preview は GPT-4o よりもハルシネーションの発生頻度は低く、o1-mini は GPT-4o-mini よりもハルシネーションの発生頻度は低い。
しかし、o1-preview と o1-mini は、GPT-4o と GPT-4o-mini よりもハルシネーションが起こる傾向があるという逸話的なフィードバックも受けている。
ハルシネーションを総合的に理解するためには、さらなる研究が必要で、それは、特に我々の評価でカバーできていない領域(例えば、化学)で必要。
さらに、レッドチームは、o1-preview が GPT-4o よりも詳細な回答を生成することから、特定のドメインでは GPT-4o よりも説得力があると指摘している。
このことは、人々が、ハルシネーションを起こした生成結果を信頼し、頼りにする潜在的リスクを増加させる。
ざっくり書くと、以下の内容となりそうかと思います。
- 評価結果は全体的に o1 のモデルのほうが良かったものの、ハルシネーションの研究はもっと必要(特に OpenAI が評価できてないドメインで)
- o1 がハルシネーションを起こした時には、(特定のドメインの場合)詳細な説明が説得力を増す効果を生んで、その結果として、利用者が誤った内容を信じるリスクが高まるという指摘がある
おわりに
自分は、個人で契約している ChatGPT Plus で、o1-preview を試しはじめているのですが、そのような中でハルシネーションの話は気になるトピックの 1つです。
今後も、o1-preview と他の生成AI との比較情報などと合わせて、ハルシネーションの情報も見ていければと思っています。
モデルの得手不得手、みたいな話題もいろいろと見かけたりしますが、実際どうなのか気になるところ。
(生成AIは、個人では主に、o1-preview、GPT-4o、Claude 3.5 Sonnet あたりを使っている感じです)
余談
余談ですが、o1 についてはレートリミットが気になってしまい、必要以上に遠慮がちな使い方をしていて、まだ十分には試せていなかったりします。
レートリミットが緩和された話もあるようなので、もう少し、積極的に使っていけたらとも思っています。