はじめに
先日投稿したChatGPTの新機能「Deep Research」 の紹介記事が好評でした。
本記事ではChatGPTの新機能「Deep Research」 について、Shallow Research して検証結果についてまとめました。
検証方法
- 選択したモデル毎に精度に差があるかどうか
-
どういうテーマが得意か
- STEM
- STEM以外
- 複数タブを開いて複数タスクを同時実行
STEMとは
STEMとは、Science(科学)、Technology(技術)、Engineering(工学)、Mathematics(数学)の頭文字を組み合わせた言葉です。
o3 モデルがこの STEM を得意としているようなので、このSTEMとSTEM以外のテーマを比較することにしました。
結果
選択したモデル毎に精度に差があるかどうか
まずはモデル毎による精度の違いを確認します。
以下の調査依頼書を Deep Research に投げて結果を確認しました。
調査依頼書
件名: 暗号通貨規制の最新動向と市場ボラティリティへの影響、およびビットコインの価格予測に関する調査
調査目的: 暗号通貨市場における最新の規制動向とそれが市場のボラティリティに与える影響を把握し、ビットコインの今後の価格動向を予測することで、投資戦略の策定およびリスク管理を強化する。
調査項目:
1. 暗号通貨規制の最新動向
- 米国、EU、日本など主要国における暗号通貨関連の最新規制の概要
- 新たに導入または提案されている規制の詳細
- 規制当局のスタンスや声明の分析
2. 規制が市場ボラティリティに与える影響
- 過去の規制変更がビットコインおよび主要な暗号通貨の価格変動に与えた影響の分析
- 現在進行中または予想される規制が市場のボラティリティに及ぼす可能性の評価
3. ビットコインの価格予測
- 最新の市場データと分析手法を用いた短期(6ヶ月以内)および中長期(1〜3年)の価格予測
- 価格予測に影響を与える要因(マクロ経済指標、技術的要因、投資家のセンチメントなど)の特定
調査手法:
- 信頼性の高い情報源(政府の公式発表、金融規制当局のレポート、主要な金融ニュースメディアなど)からのデータ収集
- 過去の市場データの定量的分析
- 専門家の意見や分析レポートのレビュー
調査は最新情報に基づき、可能な限りリアルタイムデータを使用すること。各国の法的文書や公式声明を直接参照し、複数の分析手法(例: テクニカル分析、ファンダメンタル分析、機械学習モデルなど)を組み合わせて精度を高めること。
4o
すごい文量で出力されました。
情報源は18件です。
なぜか調査時間が表示されませんでしたが、5分くらいで完了した気がします。
https://chatgpt.com/share/67a208af-2f24-8011-8495-bb3e95b92c46
o3-mini-high
情報源は34件。4oよりも多いソースを参照している。
調査時間は膨大です。21分かかりました。
https://chatgpt.com/share/67a213d1-d308-8011-b400-3bf33d20d71c
o1 pro
調査が開始せずに失敗しました。
o1 proを使って調査したときに、成功したことがありません。(私のやり方が悪いのでしょうか。)
https://chatgpt.com/share/67a2091c-228c-8011-9e4b-bbbbe68c1b19
評価方法
o1 pro に以下のプロンプトを投げて評価してもらいました。
以下のレポート1(4o)とレポート2(o3-mini-high)はどちらの方がいい記事だと思いますか?
推論時間は3m43s。
結果は、
「『記事としての完成度』という観点では、より幅広い情報と出典が詰まっているレポート1がやや上回る印象」
とのことなので、
4oで調査した結果の方がいいようですが、個人的にはレポート2の方が読みやすかったので、読む人のレベルにもよるのかもしれません。
↓細かく評価をみたい方はこちら
https://chatgpt.com/share/67a21483-a458-8011-a5de-8488991ba017
リロードしたときに、4o mini モデルに自動的に切り替えをされていることが何度もあったので、もしかしたら、Deep Research で調査を開始するまでは 4o mini でこちらに質問をしてきて、Deep Researchの調査が開始した後は裏側でo3モデル(?) で調査しているのかもしれません。
この推測が正しい場合、モデルを選択してDeep Research を実行しましたが、このモデルの選択は重要ではないのかもしれません。
どういうテーマが得意か
Deep Research が o3 モデルをベースにしているという情報も見たことがあるので、STEMとそれ以外のテーマについて聞いてみました。
ベースモデルはo3-mini-highを選択しました。
STEM
以下のテーマで検証しました。
調査依頼書
件名: 「IoTとサイバーセキュリティの進化:デジタル社会におけるリスクと対策」調査のご依頼
目的:
IoT(モノのインターネット)の急速な普及に伴い、サイバーセキュリティのリスクも増大しております。調査では、最新の情報を基に、デジタル社会におけるIoT関連のリスクとその対策について明らかにすることを目的としています。
調査項目:
1. IoTの現状と最新動向:
- IoTデバイスの普及状況と市場規模
- 主要なIoTアプリケーション分野とその成長予測
2. IoTに関連するサイバーセキュリティリスク:
- IoTデバイスの主な脆弱性とその原因
- 過去のIoTデバイスを標的としたサイバー攻撃事例
- IoTを介したサイバー攻撃の最新手法と傾向
3. IoTセキュリティに関する最新の法規制とガイドライン:
- 日本国内および国際的なIoTセキュリティに関する法規制の現状
- 主要なセキュリティガイドラインや認証制度の概要
4. IoTセキュリティ対策の最新動向:
- IoTデバイス製造者およびユーザーが講じるべきセキュリティ対策
- セキュリティ強化のための最新技術やソリューションの紹介
- セキュリティ対策の実施における課題とその解決策
5. 今後の展望と推奨事項:
- IoTとサイバーセキュリティの将来的な課題と予測
- 組織として取り組むべきセキュリティ戦略と推奨事項
調査方法:
- 最新の公開情報、学術論文、業界レポートの収集と分析
- 関連する専門家や業界関係者へのインタビュー(可能な場合)
- 過去のサイバー攻撃事例のケーススタディ
↓調査結果はこちら
https://chatgpt.com/share/67a216bc-e6e8-8011-847d-8b3e17b63cf6
STEM以外
以下のテーマで検証しました。
調査依頼書
件名: 日銀の金融政策と円相場の変動メカニズムの最新分析
目的: 調査の目的は、日本銀行(以下、日銀)の最新の金融政策が円相場に与える影響と、その変動メカニズムを明らかにすることです。特に、直近の政策変更や市場の反応を中心に分析を行い、今後の為替動向を予測するための知見を得ることを目指します。
調査範囲:
1. 日銀の最新の金融政策の概要:
- 最近の政策決定会合の内容とその背景
- 政策金利の変更履歴とその意図
- 量的・質的金融緩和(QQE)やイールドカーブ・コントロール(YCC)などの非伝統的政策手段の現状
2. 円相場の現状分析:
- 最近の円相場の推移と主な変動要因
- 日米金利差や実質金利差と円相場の関係
- 為替市場における投機的動向や市場心理の分析
3. 金融政策と円相場の変動メカニズム:
- 日銀の政策変更が円相場に及ぼす直接的・間接的な影響
- 市場参加者の期待形成と政策の伝達経路
- 過去の政策変更時の円相場の反応と比較
4. 最新の研究動向と専門家の見解:
- 日銀や民間研究機関による最新の研究成果のレビュー
- 金融市場の専門家やエコノミストの最新の見解や予測
5. 今後の展望とリスク要因:
- 日銀の金融政策が円相場に与える影響の予測
- 外部要因(米国の金融政策、地政学的リスクなど)が円相場に及ぼす可能性
- 円相場の変動が日本経済に与える影響とその対策
↓調査結果はこちら
https://chatgpt.com/share/67a216bc-e6e8-8011-847d-8b3e17b63cf6
評価方法
o1 pro に以下のプロンプトを投げて評価してもらいました。
以下のレポート1(STEM)とレポート2(STEM以外)はどちらの方がいい記事だと思いますか?
推論時間は3m24s。
結果は、
「『完成度』という観点ではレポート1が一歩リード」
とのことなので、STEM分野について調査した結果の方がいいようです。
これまた、個人的にはレポート2の方が読みやすかったので、個人の興味関心に依存しそうです。
↓細かく評価をみたい方はこちら
https://chatgpt.com/share/67a21b40-7a80-8011-8603-ca82287e8b03
複数タブを開いて複数タスクを同時実行
2025年2月4日22:00頃に3つくらいのタスクを同時に実行してみたのですが、なかなか調査が始まりませんし、終了もしませんでした。
何度が同時実行しようとしても、後から実行したタスクは開始すらされませんでした。
同時実行ができないとまで言い切ることはできませんが、何かしらの制限がある可能性があります。
(もしくはChatGPT全体が重く感じたので、OpenAIのサーバーに負荷がかかっていただけな可能性もあります。)
ただ、別のDeep Researchのタスクが終わった直後に、別タブのDeep Researchに「調査して」とお願いすると調査が開始されます。
これらのことから総合的に判断すると同じアカウントで同時並列にDeep Researchを実行することはできないんではないかなと推測されます。
(全て偶然な事象な可能性もありますので、あくまで個人の感想です。)
考察
-
選択したモデル毎に精度に差があるかどうか
各モデルの結果を表でまとめて。
結果としては、選択するモデルによって精度は変わらない(気がする。) -
どういうテーマが得意か
- STEM
- STEM以外
テーマも異なり国語力が高くない私としてはどちらの方が優れているか、明確に判断することはできませんでした。
感覚的にSTEM領域の方が得意なんではないかなと感じました。
まとめ
「Deep Research」の Shallow Researchはいかがでしたでしょうか。
気が向くままに調査したまでですので、真面目な検証はできていません。
また、私個人ではすでに判定できないほど、どれも素晴らしい調査結果だと感じました。
正直、検証のために作ったテーマなので、調査結果をまとめてくれても「へ〜」くらいしか感想がありませんでしたが、実務で調査に時間がかかるタスクをDeep Researchに投げることで、感動する未来が見えます。