生成AIとは、ジェネレーティブAI (Generative AI)とも呼ばれ、文章や画像、動画、音楽などの新たなコンテンツを生成するAIのことをいいます。
現在有名な生成AIには以下のサービスがあります。
- ChatGPT(OpenAI社)
- Copilot(Microsoft社とOpenAI社)
- Gemini(Google社)
- Stable Diffusion(画像、動画用、Stability AI社)
- Sora(動画用、OpenAI社)
- Suno(音楽用、Suno社)
検索エンジン業界の危機意識
これらの生成AIの台頭により、検索エンジン業界にはいくつかの危機意識が生じています。
主なものを以下にまとめます。
1.精度と信頼性の低下
生成AIは膨大な情報をもとに推論により生成できる一方で、誤情報やバイアスの含まれた内容も生成することがあります。これにより、「情報検索」目的で生成AIを使用した場合、いわゆる「幻覚(hallucination)」を作り出してしまうので、検索結果の精度と信頼性が低下する懸念があります。
2. 検索結果から生まれる混乱
生成AIは大量のコンテンツを迅速に生成できるため、インターネット上の情報が急速に増加し、質の低い情報が検索結果に混ざりやすくなります。これにより玉石混交となり、ユーザーが必要な情報にアクセスするのが難しくなる可能性があります。
3. 著作権と倫理の問題
生成AIが既存のコンテンツを学習し新しいコンテンツを生成する際に、著作権やプライバシーの侵害の発生するリスクがあります。出典元を特定しにくく、推論により生成された内容の著作権もあいまいです。
4. ユーザー体験の変化
生成AIを利用した対話型インターフェース(例えば、チャットボットやバーチャルアシスタント)が検索エンジンに取って代わることで、従来からの検索エンジンの使い方が変わり、ユーザー体験が大きく変化する可能性があります。
5. 技術と資源の競争
生成AI技術の開発には高度な専門知識と膨大な計算資源(リソースとコスト)が必要です。これにより、大手テクノロジー企業と中小企業の間で技術格差が広がる可能性があります。
これらの要因により、検索エンジン業界は生成AIの影響に対して高い危機意識を持ち、対策を講じる必要性が高まっています。
検索エンジンの優位性
しかし、決して慌てることはありません。
従来からの検索システムが持つ特性や、新しい機能の追加による優位性について整理してみます。
1. 信頼性の高い情報
- 検索エンジンは、検索サービス提供者により選択された信頼性の高いソースから結果を提供します。信頼できるサイトや権威あるドメイン、社内に蓄積されたドキュメントやナレッジからの情報を優先することで知識の再現性を有し、ユーザーは正確で信頼性の高い情報を得ることができます。
- 生成AIは大規模なデータセットから推論し情報を生成するため、幻覚(hallucination)やバイアスが混入するリスクが高く、信頼性に欠ける場合があります。
2. 透明性と出典の明示
- 検索エンジンは、検索結果として表示されるリンク元を明示し、ユーザーが情報の出典を確認できるようにできます(検索サービスの身元が明確で、特定の情報だけを検索対象にできます)。これにより、情報の信憑性をユーザー自身が評価できます。
- 生成AIの提供する情報は出典が明示されないことも多く、ユーザーが情報の出所や信憑性を確認するのが難しい場合があります。
3. 精度と特化性
- 検索エンジンは、特定のクエリに対して最も関連性の高い結果を提供するために最適化されています。専門的な情報やニッチなトピックについても高い精度で検索結果を提供できます。
- 生成AIは広範なトピックに対応できるものの、特定の分野に特化した情報の精度や詳細度が劣る場合があります。
4. 情報のフィルタリングと評価
- 検索エンジンは、検索アルゴリズムにより情報の質を評価し、信頼性や権威性に基づいてランク付けを行います。これにより、質の高い情報が上位に表示されやすくなります。
- 生成AIはアルゴリズムに基づいて情報を生成するものの、評価基準やフィルタリングのプロセスが不透明で、情報の質を保証するのが難しい場合があります。
5. ユーザーの選択肢と自主性
- 検索エンジンは、ユーザーに複数の選択肢を提供し、どの情報を選ぶかをユーザーに委ねます。これにより、ユーザーは自身の判断で最も適した情報を選ぶことができます。
- 生成AIは単一の回答を提示することが多く、ユーザーが情報を比較検討する機会が減るため、情報の選択肢や自主性が制限される場合があります。
6. コスト効率
- 検索エンジンは、インデックス作成やクローリングのコストはかかるものの、検索クエリに対する処理は比較的低コストで行われます。既存のインフラと最適化されたアルゴリズムにより、運用コストが抑えられています。ただし、セマンティック検索の場合は、学習モデルの利用やデータのベクトル化に、ある程度の費用の発生が見込まれます。しかしながら、適切なモデルを選択し、効率の良いベクトル化を行うことで、コストを抑え、把握しやすい傾向があります。
- 生成AIは大量の計算資源を必要とし、特に大規模な言語モデルのトレーニングと推論には高額なコストがかかります。これにより、生成AIの運用コストは検索エンジンに比べて高くなる傾向があります。
7. リアルタイム性
- 生成AIは、トレーニングデータが特定の時点でカットオフされていることが多く、その後の新しい出来事や最新の情報を把握できていません。そのため、最新のニュースや進行中の出来事についての情報を提供したり、それに基づく推論を行うことは難しいです。
- 検索エンジンは、最新の情報をインデクスシングすることで、瞬時に低コストで検索結果に反映させることができます。
8. セマンティック検索の導入
- 検索システムにセマンティック検索が追加されることで、検索クエリの文脈や意味を理解し、より関連性の高い結果を提供できるようになります。これにより、ユーザーの意図に沿った検索結果が得られやすくなります。
- セマンティック検索では、ユーザーの検索行動を分析し、過去の検索履歴や関連性の高いトピックを考慮して結果の提示を組み合わせることで、よりパーソナライズされた検索体験を提供することが可能です。
- 生成AIも意味を理解する能力を持っていますが、検索エンジンのインデックスとセマンティック検索の組み合わせは、既存の信頼性と透明性を維持しつつ、さらに精度の高い検索結果を提供するという強みがあります。
これらの点から、検索システムは信頼性、透明性、精度、情報の質の評価、ユーザーの選択肢、コスト効率、リアルタイム性、そしてセマンティック検索技術による高度な関連性の観点で生成AIに対して優位性を持っています。
とはいえ、検索エンジンが生成AIより優れている!というように、一言で片づけられるものでもありません。
ユーザーは、検索エンジンと生成AIを上手に使い分ける必要があります。
例えば、エラーコードやエラーメッセージ、商品番号などから、それにズバリヒットする文書を検索する場合は、検索エンジンのキーワード検索方式が効果を発揮するでしょう。また、直近の情報や、数値を範囲とした検索も従来から検索エンジンの方が向くかもしれません。
一方、過去のデータをもとに様々な状況に沿った推論、たとえば、作文・作画・作曲などの各種のクリエイティブな作業やあいさつ文の作成、メールの返信などは生成AIの方が向くかもしれません。
KandaSearchは「検索エンジン」です。