以下の記事を思いついた原点になった考え方を紹介します。
【完全無料】GitHub ActionsをAIエージェントの実行環境に!Playwrightを使った自律型ブラウザAI開発の全ロードマップ
https://qiita.com/sinzy0925/items/83e89371f6ae14458324
データ戦略:収集、保存、そして分析へ
このデータ戦略の根底には、一つの重要な目的があります。それは、開発者個人では決して思いつかないような、多様で現実的なテストケースを、多くのユーザーの協力によって収集・共有するというアイデアです。AIブラウザという複雑なシステムの品質は、どれだけ多様なサイトやタスクを経験したかで決まります。
ユーザーの皆様からご入力いただいた情報は、本システムの品質向上および機能改善を目的として、厳重な管理体制のもと、細心の注意を払い分析させていただきます。 目的外での利用は一切行わず、情報の取り扱いには万全を期します。
特に、失敗例はアプリの改善点として活用し、成功例はAIが思考する時間をスキップし、より高速にユーザーのリクエストに応答するための貴重な学習データとなります。
フェーズ1:@cipherによる完全なデータ収集
-
目的:
実行時の完全なコンテキストを、一つの塊として欠損なく保存する。 -
データ構造:
各テストケースのログは、HTMLコンテンツ自体を埋め込んだ、自己完結型のJSONとして作成します。これにより、後から参照する際に、ファイルパスのリンク切れなどを心配する必要がなくなります。{ "test_id": "テスト1", "user_request": "...", "final_result": "...", "html_snapshot": { "filename": "step_1.html", "content": "<!DOCTYPE html>..." } } -
保存先:
生成された自己完結型JSONは、まずはローカルで動作する@cipherMCPサーバーに、「テスト1」「テスト2」のようなキーで保存されます。
フェーズ2:BigQueryによる高度なデータ分析
-
目的:
@cipherに十分にデータが蓄積された段階で、より高度で大規模な分析を可能にする。 -
移行プロセス:
@cipherに保存されたJSONデータを一括で抽出し、移行用のスクリプトを使って以下の通り分離・格納します。- HTMLコンテンツ: JSONから抽出され、Google Cloud Storage (GCS) に保存されます。
-
メタデータ: HTMLを除いた残りのデータ(
test_id,user_requestなど)は、Google BigQuery のテーブルに格納されます。
-
期待される効果:
BigQueryの強力なクエリ能力と、Gemini in BigQueryのAI機能を組み合わせることで、単純なログの閲覧に留まらない、高度なテスト結果の分析(失敗パターンの特定、類似リクエストの検索など)が実現します。