【GAS × Claude API】1644社のサステナビリティデータ自動抽出システムを設計するまでの道のり(ツール選定・要件定義編)
はじめに
現在、企業のESG(環境・社会・ガバナンス)対応が重要視される中、各企業のWebサイトや統合報告書(PDF)から「Scope 1, 2, 3」などのサステナビリティデータを収集する業務が発生しています。
しかし、対象となる企業数は1644社。これを人間の手作業で巡回・目視確認していくと、膨大な工数(推計130時間以上)がかかり、現実的ではありません。
そこで本プロジェクトでは、生成AIを活用してこのデータ抽出業務を自動化するシステムの構築を目指しました。
本記事では、開発の前段階である 「要件定義」と「最適なAIツールの選定(なぜ最新の自律型エージェントではなくAPIを選んだのか)」 のプロセスを振り返ります。
※実際のGAS開発・実装については、次回の記事で解説します。
1. プロジェクトの要件定義と最大の課題
システムを設計する上で、以下の要件を定義しました。
- 処理対象: 1644社分のWebサイトおよびPDFファイル(統合報告書など)
- 抽出データ: Scope 1, 2, 3 の温室効果ガス排出量データなど
- 出力先: Googleスプレッドシートへの一覧化
🚨 最大の課題:AIの「ハルシネーション」とフェイルセーフの必須化
サステナビリティデータは企業の信頼に関わる数値であり、「AIがそれっぽい嘘の数値をでっち上げる(ハルシネーション)」ことは絶対に避けなければなりません。
そのため、システムには以下の フェイルセーフ(安全装置) を絶対に組み込む必要がありました。
【必須ルール】
確実なデータが取得できなかった場合は、決して推測せず、スプレッドシートの指定セルに 「取得不可」と明記 し、人間が目視確認するための 「参考URL(またはPDFリンク)」のみを出力 して処理を止めること。
2. ツール選定:3つのアプローチの比較検討
要件を満たすため、Anthropic社の「Claude 3.5 Sonnet」をベースに、3つの技術アプローチを比較検証しました。
❌ 案1:Claude for Sheets(スプレッドシート拡張機能)
最初はノーコードで導入できるアドオンを検討しました。
- 結果: 不採用
- 理由: APIの裏側にWebブラウジング機能が標準搭載されていないため、セルにURLを入力しても「URL先のテキストを読みに行く」ことができず、PDFの読み込みも不可能でした。今回の業務には不適合でした。
❌ 案2:Claude Cowork(最新の自律型AIエージェント機能)
次に、PC上で自律的にブラウザを操作し、ファイルを探し出す機能「Cowork」を検討しました。
- 結果: 探索力は非常に魅力的だが、今回は不採用
-
理由: 1. コストの限界: 裏側で大量の推論を行うため、数十社処理した段階で「利用制限(Rate Limit)」に到達してしまうため、1644社を自動で回し切ることが大変になってしまう。
2. フェイルセーフの不確実性: 自律性が高すぎるため、「見つからない場合に潔く諦めて固定フォーマットで出力する」という厳格なルールの徹底が難しく、フォーマット揺れのリスクがありました。
⭕️ 案3:Claude API × GAS(独自システム開発)
最終的に、Google Apps Script(GAS)でクローラーを作成し、取得したテキストをClaude APIに投げる独自開発アプローチを選択しました。
- 結果: 採用
-
理由:
- 安全装置の完全な制御: GAS側のプログラム(if文)で制御することで、「AIの回答に数値がなければ『取得不可』としてURLを出力する」というフェイルセーフを 確実 に作動させることができます。
- 1644社を一気に処理する安定性: クラウド上で動作し、従量課金のため利用制限で止まることなく、数日で全件処理が可能です。
3. 意思決定の決め手:ROI(投資対効果)
新しい技術(Cowork等)はエンジニアの知的好奇心をくすぐりましたが、最終的にAPIの独自開発に決定した最大の理由は 「投資対効果(ROI)」 です。
1644社のデータを人間が手作業で探した場合、1社5分と仮定しても 約137時間(約17人日) の工数がかかります。
一方、Claude API(従量課金)を利用した場合、1社あたりの処理コストを約30円と見積もっても、トータル約5万円のAPI代で、137時間分の作業を数日で完了させることができます。
「1400社以上の単純作業をAPIで一気にさばき、エラーとして『取得不可』になった1〜2割の企業だけを人が目視確認する」という、AIと人の協業フローが設計できたことが、最大の収穫でした。
まとめと次回予告
今回のツール選定を通して、以下の知見を得ることができました。
- ツールの「できること」だけでなく「構造的な限界(APIとGUIの違いなど)」を理解することの重要性
- 最新技術(AIエージェント)が必ずしも実務の大量処理に最適とは限らないこと
- AIを活用する業務設計において、最も重要なのは「100%の精度」ではなく「確実なフェイルセーフ(人間のエスカレーション経路)」であること
ただコードを書く前に、業務要件とコスト・リスクを徹底的に洗い出せたことで、迷いなく開発に進むことができます。
次回は、実際に 「GASを用いてWebページ・PDFのテキストを取得し、Claude APIに投げてスプレッドシートに出力する」 具体的な実装編(コード解説)をお届けします!