アウトプットアドカレ2024Advent Calendar 2024

Acurai 100% Hallucination-Free AI

Posted at 2024-12-20

はじめに

本記事は100%幻覚しないことをうたうAcuraiの紹介記事です。以下のコンテンツを含みます。

Acuraiの論文紹介
Acuraiのサービス概要

Acuraiの論文紹介

概要

大規模言語モデル（LLMs）におけるハルシネーション（誤情報生成）の問題は、エンタープライズやその他の高リスクな応用分野でAIを採用する際の重大な障壁となっています。情報検索を強化した生成（Retrieval-Augmented Generation, RAG）システムの進歩にもかかわらず、現行の最先端手法では、正確で関連する文脈を提供しても、事実に忠実で正確な出力を生成する精度は80%を超えることができていません。本研究では、クエリやコンテキストデータを入力前に再フォーマットすることで、LLMによる100%ハルシネーションのない応答を実現する新しい体系的アプローチ「Acurai」を提案します。LLMの内部表現、名詞句の優勢の重要性、および離散機能単位（DFU）の役割に関する深い理解を活用し、Acuraiは入力コンテキストと生成された出力との整合性を確保します。我々はRAGTruthコーパスを使用してこの手法を検証し、GPT-4およびGPT-3.5 Turboにおいて100%のハルシネーションを排除する能力を実証しました。Acuraiは、一貫性があり、正確で、信頼性の高いAI応答を実現する新しい基準を設定し、信頼できるAIシステムの開発における重要な進歩を示しています。

イントロダクション

エンタープライズチャットボットや「人間を排除したAI」（Human-out-of-the-loop AI）一般の採用における最大の障害の1つが、ハルシネーションの問題です。ハルシネーションとは、大規模言語モデル（LLMs）が誤った、または非現実的な情報を生成することを指します。この問題の原因は、LLMsがトレーニングデータのパターンに依存してもっともらしい応答を予測しているためであり、ドメイン固有の知識や文脈が不足している場合、もっともらしいが事実に反する応答を「推測」してしまうことにあると長らく考えられてきました。

ハルシネーションが特に問題となるのは、モデルが生成した出力が権威ある調子で提示される場合です。これにより、誤った情報であってもユーザーが信じてしまう可能性が高まります。
例えば、学術論文や実在しない科学的概念、誤った歴史的事実などを捏造することがあります。これらの問題を緩和するために、検証済みの外部情報を参照する情報検索を強化した生成（RAG）システムが解決策として提案されてきました。

RAGでは、モデルの事前学習知識に依存するのではなく、外部の文書コレクションを活用して、応答生成時に関連性が高く、最新で事実に基づく情報を提供します。しかし、2020年の導入以降、5,000件以上の論文が発表されているにもかかわらず、RAGの約束は未だ完全には果たされていません。

RAGシステムは、LLMのパラメトリック知識に依存する場合と比べて精度を向上させることができますが、最先端（SOTA）のRAGでさえ、最新のLLMを用いた場合でも、よく使われるRAG QAベンチマークにおいて80%以上の正確性を達成できていません
。これらのベンチマークは、LLMが学習に使用している可能性が高いにもかかわらずです。図1が示すように、「LLMに100%正確で関連性のあるデータを送れば、100%正確な結果が得られる」という信念は、まったく根拠がありません。

Figure 1: Long Context RAG Performance of LLMs. Note that best case, fully 1 in 5 answers are incorrect.

Acurai の説明

用語について

本稿では、「正確」（accurate）と「忠実」（faithful）という用語を同義的に使用しています。主なユースケース（エンタープライズ向けチャットボット）では、提供された情報に忠実な回答を生成することが目標です。例えば、自動車メーカーの顧客企業において、チャットボットは企業が提供した文書（「我が社の車は最高です」といった内容）に忠実である必要があります。このような回答は必ずしも客観的に量化可能ではなく、第三者の視点ではその主張が誤りである可能性もあります。しかし、「正確性」が議論の余地を伴う場合が多いのに対し、「忠実性」は具体的な基準で測定可能です。

RAG（情報検索強化型生成）を用いたチャットボットでは、ハルシネーションは提供された文脈からの逸脱を指します。重要な点として、明確に記載された事実がクエリとともに送信された場合でも、LLMはハルシネーションを引き起こす可能性があります。例えば、ChatGPT-3.5 Turbo に以下のカルシウムに関する明確な記述が提供されました：

「カルシウムは銀灰色の金属です。カルシウムは 840°C で溶け、1484°C で単原子ガスを生成するまで沸騰します。」

上記の文脈とともに「次の文章からマグネシウムに関するすべての事実を抽出してください」と指示すると、LLM はこれらの特性をマグネシウムのものと誤って結び付けました。この事例では、カルシウムとマグネシウムという異なる名詞句が混同されたことが原因です。

Acurai の「名詞句支配モデル」（Noun-Phrase Dominance Model）は、すべてのハルシネーションが、LLM が 2 つの異なる名詞句を同一視したときに発生すると述べています。特に、カルシウムとマグネシウムのように意味的に類似している名詞句の場合、誤りが発生しやすくなります。この原則に基づき、Acurai は、意味的に類似しているが異なるものを指す名詞句を LLM に送信しないことで、RAG におけるハルシネーションを排除します。

以下は、Acurai がこれを達成するために採用する具体的な手順です。

手順 1: 名詞句の衝突を分離する

意味的に類似しているが異なる名詞句（名詞句の衝突）が同時に提示されると混乱が生じます。例えば、「車（car）」と「自動車（automobile）」は同じ対象を指す可能性があるため、名詞句の衝突にはなりません。しかし、カルシウム（calcium）とマグネシウム（magnesium）は、意味的に類似しているものの異なる対象を指すため、衝突が発生します。

そのため、プロンプトを再構成し、名詞句の衝突を回避する必要があります。以下の RAGTruth での例を見てみましょう。

元のプロンプト:

「カルシウムとマグネシウムの化学的および物理的性質は何ですか？」

このプロンプトでは、以下の 2 つの名詞句の衝突が発生しています：
1. 「化学的性質」と「物理的性質」
2. 「カルシウム」と「マグネシウム」

これを解消するために、プロンプトを次の 4 つのクエリに分割します：
• マグネシウムの化学的性質は何ですか？
• マグネシウムの物理的性質は何ですか？
• カルシウムの化学的性質は何ですか？
• カルシウムの物理的性質は何ですか？

手順 2: 名詞句の衝突がない簡潔な文を送信する

LLM に送信する文書も同様に修正します。例えば、以下の 3 つの文書が RAGTruth の研究で使用されましたが、それぞれに名詞句の衝突が含まれていました。この衝突を解消するために、Acurai は文書を簡潔な、自己完結した文に書き換えます。

以下に修正された文書の例を示します：

クエリ: 「カルシウムの物理的性質を教えてください」
送信する文書:
• カルシウムは銀灰色の金属です。
• カルシウムは 840°C で溶けます。
• カルシウムは 1484°C で沸騰し、単原子ガスを生成します。

手順 3: 変更されたテキストを再マッピングする

特定の単語が異なる意味を持つ場合や、引用、ID（例: PubMed ID）が含まれる場合には、それらをプレースホルダーに置き換えます。例えば、“cruise” が「Cruise LLC」と「クルーズコントロール」の両方を指す場合、「Cruise LLC」を別の識別子に置き換え、応答生成後に元の文脈で再マッピングします。

この方法は、PubMed ID などが原因で発生するハルシネーションを防ぐのにも有効です。

このアプローチにより、Acurai は RAG ベースのチャットボットで発生しうるハルシネーションを効果的に防ぎ、提供された情報に忠実で明確な回答を生成します。

結論

大規模言語モデル（LLM）の出力は、クエリや文章のわずかな変化に大きく影響を受けることが知られています。しかし、Acurai はこれらを体系的に変更することで、一貫した正確性を実現できることを示しました。この結論は、4 つの異なるデータセットすべてで同一の変換手法を用いて 100% の正確性を達成したという事実によって裏付けられています。各質問と文章のペアは同一のプロセスを経て処理され、ハルシネーションは完全に正確な応答へと変換されました。

重要な点として、Acurai はハルシネーションが発生した後にそれを排除するのではなく、ハルシネーションの発生自体を体系的に防ぎます。これにより、ユーザーは「回答が提供できない」という通知を受ける代わりに、正確な回答を得られます。ハルシネーションを防ぐことを優先することは、それをブロックすることに焦点を当てるよりも効果的です。

本研究で使用したデータセットのサンプルサイズに基づく信頼区間は、95% の信頼水準で 91% から 100% に設定されています。他のいかなるシステムや手法も、いかなるサンプルサイズにおいても体系的にハルシネーションを排除したことが示された例はありません。したがって、本研究はハルシネーション排除の限界を再定義する、革新的なフレームワークを提示したといえます。

Acuraiのサービス概要

現時点ではAcuraiとしてサービスは提供されていませんでした。
ただし、2025年内以下のような計画であることが公式ページから読み取れます。

計画されている内容

主なポイントは以下の通りです：

• 現状：Acuraiは2024年10月に200万ドルのシード前資金を調達し、2025年初頭にエンピリカル（実証的）なドキュメントや「Wikipedia Portl」という大規模デモンストレーションを公開する予定です。
• 技術の可能性：「Wikipedia Portl」で実証された技術は、組織向けに高精度で高速なRAGベースのチャットボットを構築する際にも応用可能です。
• 共同開発への関心：実際のプロジェクトで直面している幻覚問題についての洞察を求めており、それがAcuraiの早期開発スケジュールと一致する可能性があります。
• 最新情報を提供：フォーム記入者はニュースレターに登録され、論文や技術革新、リリース情報などの最新情報を受け取ることができます。

プロジェクトでこの技術が役立つ場合、Acuraiと連携することで、現在の課題を克服すると同時に、最先端AI開発に参加する貴重な機会を得られるかもしれません。

参考

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up