今更ですが、ChatGPTのエージェントモードを使ってみました。
ちょっと感動したので、軽くトライした状況を記録します。
普段はDifyなどのワークフロー系のAIエージェントを触っていたので、こんなに簡単に動くことに少し感動した次第です。
ChatGPT エージェントモードとは?
2025/07に公開された、流行りのAIエージェント機能になります。
ChatGPTのエージェントモードは、チャット(文章で回答する)に加えて、ChatGPTがツールを使って実際に作業を進めるためのモードです。
エンジニアの方には、Deep Researchでの調査・まとめ機能と、Operatorでのブラウザ操作機能を組み合わせた機能とお伝えした方が早いかもしれません。
できること(例)
-
Web操作の代行
画面遷移、クリック、フォーム入力などを行い、情報収集や手続きを進める -
調査+作業の一体化
調べた内容をそのまま文章化、要約、構造化、資料化へつなげる -
ファイル活用
アップロードした資料を読み取り、表や要点を整理して成果物を作る -
複数ステップのタスク実行
「やることが複数ある」依頼を、途中の段取りも含めて進める
例:要件整理 → 下調べ → 記事の下書き → 見出し/表の整形
通常モードとの違い
| 観点 | 通常のチャット | エージェントモード |
|---|---|---|
| 主な役割 | 文章生成・説明・相談 | 実行(操作/編集/整理)まで含めて進める |
| 進め方 | 1問1答になりやすい | ゴールに向けて段取りを組んで進めやすい |
| 得意な依頼 | 質問への回答、案出し | 調査→作成→反映など「一連の作業」 |
気にしないといけないこと
- ログインが必要な操作や外部サービスへの反映は、環境や権限によりできない/途中で止まることがあります
- 重要な確定操作(投稿・購入など)は、直前で確認を入れる運用がおすすめ
実際にブログを書かせてみた
では、実際に試してみた際の動きを紹介します。
入力したプロンプトは↓だけです。これでどこまで行けるのか試してみます。
まずはブラウザを立ち上げて検索を始めました。
見た目はエージェントっぽくリッチですが、やっていることはDeep Researchですね。
何かプロンプトを立ち上げて処理をしています。
ブログ記事の執筆で何のプロンプト作業をしているのでしょう、謎です。
記事が執筆できたようで、ブラウザでBloggerを開き始めました。
自分でログイン方法を見つけ出し、ログイン画面まで到達しました。
そこで止まり、ログインを求めて来ます。
ブラウザの中のChatGPTエージェントブラウザを引継ぎ操作をします。
一応、ブラウザ操作をするときの注意事項が表示されます。
エージェント内ブラウザを操作してログインしてみます。
なんと!
Googleはしっかりとセキュリティ対応をしているので、エージェント内ブラウザからはログインできないようです。残念。(Googleはしっかりしていますね。)
出来ることは何となくわかったので、今回はここで諦めます。
エージェントさんにごめんなさいをします。
作った記事は渡してくれました、優しい。
渡したのは写真一枚ですが、しっかりと記事は書いてくれていました。
このあたりは得意作業なので想定通りですね。
感想
思っていた以上に、簡単なプロンプトで作業を推進してくれることがわかりました。
今回は認証で引っ掛かりましたが、通っていれば普通に下書きまで作ってくれたことが予想できます。
ブラウザ操作を必要とする作業は多くあり、RPA時代はしっかりと作業手順を定義する必要がありましたので、業務効率化という観点では威力を発揮することが伺えました。











