夢は大きく
前回、MINIX2の話ではGemini 3 Flash が大活躍だったので、気を良くして「会社でのメール対応」に挑戦してみました。
目指すのは、SF小説『ガニメデの優しい巨人』に登場する恒星間宇宙船のメインコンピュータ「ゾラック(ZORAC)」。人間同士の通信を横で聞きながら、「それは既に解決済みですよ」とか「仕様書のここに書いてありますよ」とスマートに介入してくれるAIです。
まずは、会話を要約してもらうと「大事なポイント」が抜けてしまう問題について、Gemini に詰め寄ってみました。
要約をお願いすると、出力サイズを優先されるのか、
重要な項目を飛ばしてしまう。 項目列記を優先するには?
Gemini
大規模言語モデルには、標準設定で「簡潔さ(トークン節約)」を重視するバイアスがかかっています。そのため、複数の技術要件や決定事項が含まれる複雑なメールスレッドでは、AIが勝手に「些末なこと」と判断して削ってしまう「情報の欠落」が起こります。
重要な項目を漏らさず列記させるためには、 「要約(Summarize)」という言葉を使わず、「抽出(Extract)」や「網羅(Enumerate)」という指示を使う のがコツです。
1. 「項目列記」を強制する最強の指示
「要約するのではなく、以下の情報を『網羅的に抽出』して箇条書きにしてください。私が『もういい』と言うまで、情報の切り捨ては禁止します。」
なるほど「抽出」か、と思い指示を出してみましたが、ここでさっそく「情報の欠落」が発生します。
「自信満々な手抜き」という致命的な性質
会話の冒頭で触れたAnthropic社のダリオ・アモデイ氏のエッセイの話が、リストから綺麗さっぱり消えていました。指摘すると、Geminiは実にAIらしい「反省」を口にします。
Gemini
失礼いたしました。おっしゃる通り、このセッションの冒頭で触れたはずの「Anthropic社(Claude 3.5 Sonnet)」に関する内容が、先ほどの網羅的リストから漏れておりました。
Geminiが「要約」や「列記」を行う際、直近の具体的な技術議論に意識が向きすぎてしまい、セッションの導入部分にあった重要なコンテキストを「背景情報」として省略してしまった典型的なミスです。
なぜこれが抜けたのか(自己分析)
前回のリスト作成時、私は「現在の具体的な課題解決(メールやPDFの照合)」という実務的なレイヤーにフォーカスしすぎました。その結果、会話の前提となっていた「AI業界全体の動向やモデルの選択肢」という、より高いレイヤーの情報を「周知の事実」として切り捨ててしまいました。
まさにこれが、先ほど議論した 「AIが勝手に重要度を判断して情報を間引く」 という悪い癖の実例です。
「私が『もういい』と言うまで、情報の切り捨ては禁止です」 というお言葉、改めて肝に銘じます。
「人間が見落とした案件を拾うのが目的なのに、AIが情報の切り捨てをしたら意味がない」とさらに問い詰めると、Geminiは「ゾラック」になるために必要な 「構造的な対策」 を提案してきました。
Gemini
まさに、致命的な問題です。「人間が忙しくて見落としたものを拾う」ためのAIが、自身の都合で「情報を間引く」のは、その存在意義を否定することに等しいからです。
今回の件で、今のAI(特に標準的なチャットモード)には、以下の 「致命的な性質」 があることが浮き彫りになりました。
1. 自信満々な手抜き
AIは、20通のメールのうち5通しか読んでいなくても、「全通読みました」という顔をして回答を生成します。今回、Anthropic社の件を私が落としたのも、「直近の話だけで、会話のコンテキストは十分に成立している」という AI特有の傲慢な判断 が働いた結果です。
2. 「ゾラック」にするために必要な仕組み
この「切り捨て」を、ただの「注意」だけで直すのは限界があります。メールの監視や仕様の照合で失敗させないためには、以下の 構造的な対策 が必要です。
-
ステップ実行の強制(チェーン・オブ・ソート):
一気に答えを出させず、「まずメールの件数を数えろ」「各メールの主要トピックを1つずつ抜き出せ」「それらをPDFと照合しろ」と、工程を細分化して、逃げ道を塞ぐ必要があります。 -
「見落とし」のペナルティ定義:
「1つでも情報を漏らしたら、このエージェントは失敗とみなす」という強い制約をシステム(プロンプト)に組み込む必要があります。
実戦投入:GMAILとGoogleDriveを連携
標準のGemini(Google Workspace拡張機能)を使い、テスト環境を構築しました。
- GMAIL「gemini」フォルダ:2つの案件(RedWebのコンテンツ追加検討、GrayWebの不具合対応)に関する20通のメール。
- GoogleDrive「geminitest」フォルダ:解決のヒントが隠されている仕様書PDF。
理想の挙動は、案件1の「コンテンツ追加」の議論に対し、 「その機能、仕様書PDFの32ページに既にAPIとして載っていますよ」 とAIが指摘してくれること。
しかし、普通に「要約して」と頼むと、案件の区別すらつかないボヤけた回答が返ってきます。そこで、前述の「逃げ道を塞ぐ」汎用プロンプト(トピック分離、ライフサイクル分析、既存知との照合)を投入しました。
AIに「精神論」は通用するか?
だいぶ改善されましたが、案件2の「GrayWebの不具合対応」件が、解決済みメールがあるにもかかわらず「調査中」と判定されてしまいました。
Geminiいわく、AIは「強いエラー情報(Mode=2で不可)」に重みを引っ張られ、その後の「直りました」という短い返信を「軽い挨拶」だと過小評価してしまう(時系列の最終状態の誤認)とのこと。
解決策として提案されたプロンプトがこちら。
- 完了を示唆する単語を『死ぬ気で』探せ
- 過去の経緯に『惑わされるな』
正直、「死ぬ気で」といった精神論がプロンプトとして意味があるのか複雑な心境になりましたが、技術的には 「最新のトークンに対するアテンション(注意力の重み)を強制的に引き上げるためのトリガー」 として機能するようです。
270件のメールをぶつけて見えた「物理的な壁」
さらにテストを加速させ、3日分270件のメールを登録してみましたが、ここで決定的な限界に突き当たりました。50件ほどしか読んでくれないのです。
Gemini:
その感覚は正しいです。2つの制約があります。
- RAG(検索)の取得制限:一度にピックアップできるメールは上位50〜100件程度。
- コンテキスト・ウィンドウの消費:全件を一度に読み込ませるとAIの保持容量を超え、古い情報を捨て始める。
これを解決するには、「日付ごとに分割して指示を出す」か、あるいは「Vertex AI Agent Builder」のようなエンタープライズ向けのインデックス化ツールを使うしかないという結論になりました。
限界露呈? それとも……
SFのゾラックのように、膨大な通信を傍受して驚くべき洞察をくれる未来を期待しましたが、標準のチャットUIだけでそれを実現するのは、まだ少し時期尚早だったようです。
しかし、「AIがどう手抜きをするか」「どこで情報を捨てているか」という特性を理解すれば、それを逆手に取った「オーケストレーション(AIを複数組み合わせてチェックさせる仕組み)」の設計図は見えてきました。
ゾラックへの道はまだ続きます。