2024年5月7日、Dataiku 2023 Everyday AI Conferencesのダラス・ロードショーでの講演の冒頭で、対話型生成AI技術がどのようにして誕生したのか、数年にわたる包括的な歴史を紹介した後、Aimpoint DigitalのAI部門責任者であるAaron McClendonは、"これで実際に何ができるのか?"という講演の土台となる質問を投げかけた。
長年のDataikuパートナーであるAimpoint Digitalは、あらゆる規模の企業や業界に対して、オーダーメイドの包括的なデータおよび分析サポートを提供してきました。そのため、クライアントの全体的な戦略におけるデータの活用方法について、どのような要望にも対応できます。「幅広い業種のクライアントを抱えていますが、リクエストの内容は構造化データと非構造化データの2つに大別されます。"構造化データ"とは、テーブルやデータレイク(情報の一元管理されたリポジトリなど)のようなデータセットに対するクエリを指します。"非構造化データ"とは、大きなPDFやプレゼンテーション、電子メールでやり取りされる情報のようなデータを指します。
Gen AIの課題: コスト、レイテンシー、決定論
コスト
情報セキュリティとそれに伴うコストは、マクレンドンが最初に提起した懸念事項です。「モデルをデプロイする場合、それを安全に保つ方法は多数存在します。適切な管理を行わないと、データが漏洩し、公開されてしまう可能性があります。」彼は聴衆に対し、情報をいかに安全に保つかということだけでなく、費用対効果とセキュリティのバランスを取ることも考慮するよう求めました。「常時オンで常時利用可能なシステムを導入することはできますが、その分コストがかさみます。データが安全であることを確認するために、適切な管理と契約が行われていることを確認する必要がある。」
レイテンシー
ソリューションが安全であることを確認するだけでなく、モデルが実際に受ける負荷を見直すことを勧めました。「レイテンシーも考慮すべき要素のひとつです。一度に8000から9000のリクエストが入ってくるようなアプリケーションを構築したことがありますが、そのようなリクエストを大規模に処理できるかどうかは考えるべきことです。」
AIソリューションを大規模に実装する場合、そのアプリケーションを使用するユーザーの数だけでなく、そのユーザーがどのようなレイテンシーを要求しているのかを注意深く把握することが重要です。彼は、カスタマーサービス担当者について具体的な例を挙げました。このグループは通常、顧客の質問に答えるため、さまざまなソースから幅広い情報を与えられています。「彼らは何百ページものPDFを調べたり、スーパーバイザーに相談したり、セキュアな環境でモデルに質問を入力したりします。このようなリアルタイムのシナリオでは、低レイテンシー要件が必要です。
決定論
マクレンドンは示唆に富む質問をしました。「もし2人のユーザーが同じ質問をしたら?同じ意図であっても、2つの異なる答えが返ってくるかもしれません。モデルは、同じ質問が来れば同じ答えが返ってくるように設定できますが、意図はもっとデリケートな問題です。2人のユーザーが同じ質問をするつもりでも、まったく同じではなく、似たようなものであった場合、回答はまったく異なるものになるかもしれません。」彼はここでも指導を行いました。「パラメーターの設定にはさまざまな方法があります。」モデルを微調整することができます。
Dataikuを使って非構造化データを利用するモデルを構築する
マクレンドンは次に、実際のユースケースを紹介しました。彼は、エンジンの燃料タイプ、走行距離、保証のランクなど、フォードのさまざまな車両パラメータを含むテーブルの画像を表示しながら、「私たちは、Dataiku環境にこれらを多数導入しています」と話し始めました。「誰かがCSRに電話をかけてきて、"この車を持っています。この保険に入るにはいくらかかりますか?" この文書は300ページのPDF文書の1つに過ぎない。もし誰かが新人で、この情報をどこで探せばいいのかわからない場合、モデルはこのデータ発見を加速させることができます。」
その後、Python Dashを使って構築された別のDataikuの実装に移行しました。ユーザーは、「非構造化データまたは構造化データを直接データベースに接続し、情報を取り込むことができます。さらに、動的にファイルをアップロードする機能も備えています。」要するに、彼のチームが作ったのは、ユーザーが継続的に更新されるデータセットを利用する方法であり、それによってモデルを継続的に更新し、時間の経過とともに精度を高めていく方法です。
質の高いデータが質の高いモデルを生み出す
最後に、マクレンドンは、質の高いデータの重要性を強調しました。
「モデルへの情報提供の仕方が、返ってくるレスポンスの質を左右させます」
また、産業界はモデルのハルシネーション(AIモデルが誤った情報や誤解を招く情報を作り出すこと)を理解し、回避するために努力する必要があると述べました。彼は、聴衆が生成AIモデルに送り込む情報は、すでに正確で有用なものであると同時に、時間の経過とともに微調整と最適化によってシステムが継続的に最適化されることを理解していることを確認しました。
セッション全体を見る
AIを活用してチームの自動化、要約、洞察の収集などを支援する方法について学び始めましょう。Everyday AIセッションの全容をご覧いただき、Generative AIソリューションを組織で拡張する方法についてこちらの動画を閲覧ください。
原文:Scaling GenAI Initiatives: Insights From Aimpoint Digital