LLM時代のWebアクセシビリティ
ここ数年でLLMが情報を検索する時代になってしまいました。
ChatGPTなどのサービスに要求するだけでLLMが検索のためのクエリをバックエンドで生成することができます。
目的の達成を終了条件とするエージェントの普及もあり、現在ではOpenAI deep research等様々なサービスが公開されています。
サービスによってモデルの出力形式と推測量に特色があり、これからも増え続けていくでしょう。
Web制作側として、これらのサービスに対して有効な最適化は何があげられるでしょうか。
AIエージェントファーストWeb
AIサービスが普及したことで、対AIサービスのSEOを考える時代が来ました。
工夫することでAIサービスからのユーザー流入が増えるのであれば喜ばしいことです。
例えば小売業は自社の製品が回答として選択されれば購入につながるかもしれません。
さすがに関数の呼び出しはまだ先...と思いつつClaudeはMCPなるプロトコルを定めているので遠くない可能性もあります。
最適化として有効かもしれないもの
「モデルが検索エンジンAPIを呼び出す」あるいは「モデルがブラウザを操作する」という前提の下で有利になる可能性があるものをまとめました。
セマンティックなhtmlを使用する
metaタグやOpen Graph(OGP)を活用して、ページの内容を的確に伝えるとよさそうです。
description や og:title などを適切に設定することで、AIがページの要約を生成しやすくなる可能性があります。
Chromeのリーディングモードのように、mainタグを優先して取り込むこともありそうです。
テキスト主体のコンテンツを増やす
画像や動画のみに情報を埋め込むのではなく、テキストで要点をまとめると良いでしょう。
一部のモデルは画像を認識できますが、基本的にはテキスト情報の方がすっきりします。
CSRを控える
JavaScriptを実行する環境がない場合、コンテンツが表示されません。
ブラウザを操作するタイプであっても、人間ほど精密かつ高速な操作は行えないので動的すぎる要素は不利になりそうです。
弊害
AI関連クローラー・サービスは、アクセスされるページにとっては迷惑な存在かもしれません。
アクセス過多による障害の恐れがあり、バックエンドとの通信が多いサービスほどダメージが大きいでしょう。
実際、クローラーによる過剰アクセス被害は無視できないようです。
対策としてのllms.txt
llms.txtはrobots.txtのようなテキストファイルで、LLMがwebサイトの情報を把握するために使用されます。
クローラーをブロックしても、llms.txtさえ公開していれば学習・推論コンテキストに使用されるチャンスが生まれます。
まとめ
- LLM時代において、AIエージェントによるWeb情報の取得を考慮した最適化が重要になってきている
- 特に 「CSRを控える」「構造化データを活用する」「メタデータの最適化」 などの工夫を行うことで、AIがより適切にサイトの情報を取得しやすくなる可能性がある
- 一方で、AIクローラーの過剰なアクセスがサイトに負担をかけるケースもあるため、llms.txt の活用 など、制御の仕組みを取り入れることも重要である
- これからのWebは 「人間だけでなくAIにも最適化された設計」 を意識する時代になっていくかもしれない
結局セマンティックWebの話になった気がします。
個人的にはあらゆる情報はマークダウンに集約されればいいと思っており、microsoft主動のmarkitdownもそこを目指していそうです。
マルチモーダルモデルへの画像・動画の入力はパフォーマンスが気になるのはもちろん、どうしてもファイルが大きくなりがちで情報の密度が薄い(?)のでモデル推論自体が高コストになります。
おまけ
筋トレがてらアプリ作りました。
llms.txtのアーカイブを置けるアプリで、一部SSR対応したりSEO周りでいろいろ実験中です。