More than 1 year has passed since last update.

ChatGPT-o1をナメない方がいい：詳細概要と4oとの違い、将来の使われ方など

Last updated at 2025-02-04Posted at 2024-09-22

はじめに

記事に興味を持っていただきありがとうございます！

本記事は、ChatGPTの「o1」モデルについて、その概要や「4o」モデルとの使い分け、さらに「o1」モデルがもたらす将来をより知ってもらいたく作成しました。

2022年11月30日にChatGPTが登場して以来、OpenAIを中心にAIは目覚ましいスピードで進化を続けています。そして、2024年9月12日にはOpenAIは新たな「o1」モデルを発表し、同日そのプレビュー版である「o1-preview」モデルにアクセスできるようになりました。

▶︎ 公式情報はこちら

私自身、ニュースやSNSを通じてこの「o1」モデルについて知る機会はありましたが、実際にモデルの能力がどれほど優れているのか、「4o」モデルとどのように異なるのか漠然とした理解しかありませんでした。そこで今回、公式情報や他にも信頼のある情報を基に学んだことを整理し、アウトプットすることにしました。

この記事では、公式情報の要約とともに、具体的な例を交えながら「o1」の特徴や「4o」との違いについて解説します。この記事が皆さんの理解に役立てば幸いです。

o1モデルの概要

「o1」モデルは、「4o」モデルなど従来のモデルとは異なり、回答する前に考えます。長い時間をかけて思考するようトレーニングされており、論理的な思考力を高めることで難易度の高い問題も解けるようになっています。これにより、特に STEM 分野での深い推論を必要とするタスクに優れています。

STEMとは
科学・技術・工学・数学分野を総称する語
"Science, Technology, Engineering, Mathematics" の頭文字から構成

以下、「o1」モデルが実施した試験およびベンチマークテストの「4o」モデルとの結果比較です。

Competition Math (AIME 2024)

AIMEとは「American Invitational Mathematics Examination」の略で、アメリカの優秀な高校生が招待制で挑戦する数学の試験です。試験では3時間の間に15問の問題を解く形式になっています。

▶︎ 2024年のテスト問題はこちら

ちなみに、ここで優秀な成績を取ると、米国数学オリンピック (USAMO)の参加資格を得て、そこでも優秀な成績を取って上手く進んでいくと最終的に米国代表チームとして国際数学オリンピック (IMO)に出場できるみたいです😅

さて、2024年のAIME試験において、「4o」モデルは平均12%（1.8/15）の正解率しか達成できませんでした。一方で「o1」モデルは、1回の解答で平均74%（11.1/15）という正解率を記録しています。同じ問題に対して64回の解答を行い、その中から多数決で答えを選んだ場合、正解率は83%（12.5/15）にまで向上しました。さらに、1000個の解答を学習済みのスコア関数を用いて再順位付けすると、正解率は93%（13.9/15）にも達しました。

この93%という正解率は、全米上位500人に相当し、米国数学オリンピック (USAMO)の選抜基準を上回る成績です。

Competition Code (Codeforces)

Codeforcesは、競技プログラミングコンテストを運営する人気のサイトです。コンテストは2時間15分の間に行われ、6〜8問の問題が出題されます。参加者は制限時間内にできるだけ多くの問題を解き、実力に応じてレーティングが変動する仕組みです。

OpenAIは、Codeforcesが主催する競技プログラミングコンテストをシミュレートし、モデルのコーディングスキルを評価しました。10回のコンテスト参加の結果、「4o」モデルは808のEloレーティングを獲得し、人間の競技者の下位11%に相当する成績となりました。

一方で、「o1」モデルは1673のEloレーティング、上位11%に相当する成績を達成しました。そして、「o1」モデルにさらにプログラミングスキルを向上させるトレーニングを施した「o1-ioi」モデルは、「4o」と「o1」モデルの両方をはるかに上回るEloレーティング1807を達成しました。これは人間の競技者の上位7%に相当し、非常に優れた成績となります。

PhD-Level Science Questions (GPQA Diamond)

GPQAとは「A Graduate-Level Google-Proof Q&A Benchmark」の略であり、化学、物理学、生物学に関する難解なベンチマークテストのことです。

▶︎ GitHubレポジトリはこちら
dataset.zipというフォルダの中に、実際使用されている問題が格納されたExcelファイルがあります。Excelファイルは、レベルに分けてmain、extended、experts、diamondが用意されており、モデルのテストには最も難しいDiamondレベルのテストを実施したと思われます。

GPQA Diamondの中の問題一例（中でも難しいものを選びました）
While solving higher dimensional heat equations subject to suitable initial and boundary conditions through higher order finite difference approximations and parallel splitting, the matrix exponential function is approximated by a fractional approximation. The key factor of converting sequential algorithm into parallel algorithm is

1,3-dibromoadamantane is heated to 240C with an excess of KOH, creating a light yellow solid product 1, With 1H nmr spectrum: 4.79(2H), 2.41-2.23(10H), 1.94(2H) and a characteristic absorbance in the IR spectrum at 1720cm-1.

This product was then heated with an excess of aluminum isopropoxide, forming product 2.

ozone was bubbled through a solution of 2 at -78C, followed by addition of dimethylsulfide, forming product 3.

in the 1H nmr spectrum of 3, what is the coupling pattern of the most deshielded hydrogen atom (excluding those that will exchange with deuterated solvent)?

以下、DeepL訳
高次の有限差分近似と並列分割により、適切な初期条件と境界条件を与えて高次元の熱方程式を解く一方で、行列指数関数は分数近似により近似される。逐次アルゴリズムを並列アルゴリズムに変換する重要なファクターは以下の通りである。

1,3-ジブロモアダマンタンを過剰なKOHとともに240℃で加熱し、淡黄色の固体である生成物1を得ました。¹H NMRスペクトルでは、4.79（2H）、2.41～2.23（10H）、1.94（2H）の信号が観測され、IRスペクトルでは1720 cm⁻¹に特徴的な吸収帯があります。

この生成物を過剰なイソプロポキシドアルミニウムとともに加熱し、生成物2を得ました。

続いて、-78℃で生成物2の溶液にオゾンを通し、その後ジメチルスルフィドを添加して、生成物3を得ました。

生成物3の¹H NMRスペクトルにおいて、重水素化溶媒と交換されるものを除いた、最も非遮蔽の水素原子のカップリングパターンはどのようになりますか？

何言ってるかよくわからないですね。

そして、OpenAIはGPQA Diamondの質問に答える博士号を持つ専門家を募集し、モデルと人間のテスト結果を比較しました。

「o1」モデルは「4o」モデルでは成し遂げられなかった人間の専門家の成績を上回り、このベンチマークで専門家を上回った最初のモデルとなりました。（これらの結果は、「o1」モデルがすべての点で博士号取得者よりも有能であることを意味するものではなく、博士号取得者が解くと予想されるいくつかの問題を解くのにこのモデルがより熟練していることを意味する、とOpenAIは言ってます）。

その他
視覚認識機能を有効にした「o1」モデルは、MMMU（大学レベルの知識と推論に関するベンチマーク）で78.2%のスコアを獲得し、人間の専門家に匹敵する最初のモデルと書かれています。以下、他のテスト結果の比較図です。やはり、STEM分野において「4o」モデルより「o1」モデルが圧倒的に優れているようです。

なぜ4oモデルと比べて頭が良くなったのか

では、なぜ「1o」モデルは「4o」モデルより様々なテスト成績で上回ったのでしょうか？

これは公式に発表されているものではないですが、2022年にスタンフォード大学で開発されたSTaR「Self-Taught Reasoner」と呼ばれる手法と類似していると関係者が話しています。

▶︎ STaRの論文はこちら
▶︎ 報道はこちら

論文の要旨から抜粋したものを翻訳すると
STaRはシンプルなループに基づいており、多くの質問に理由づけを生成し、その生成した答えが間違っていた場合には正しい答えを与えて再度理由づけを生成し、最終的に正しい答えに至った理由づけで微調整を行い、これを繰り返すことでLLMが自身の生成した推論から学ぶことを可能にします。

STaRに類似した手法を取っているならば、「o1」モデルは人がすることと同様に、回答する前に、何回も何回もこの解答は合っているか自分の中で確認する作業を行うことで、論理的思考力を向上させ、より難解複雑なタスクを解けるようになっていると思われます。

長い時間思考することやテストに回答する度、正解率が向上していることもAIME試験の実施から報告されています。

4oモデルが得意な分野もある

しかし、「o1」モデルより「4o」モデルの方が得意な分野もあります。
「o1-preview」モデルの回答か「4o」モデルの回答か教えずに、どちらの回答を好むかを投票した結果、「o1-preview」モデルは、データ分析、コーディング、数学のような推論を多用するカテゴリーでは、「4o」モデルに大差をつけて好まれましたが、執筆やテキスト編集などいくつかの自然言語タスクでは「4o」モデルの方が好まれ、「o1」モデルはすべてのユースケースに適しているわけではないことが示唆されました。

また、現状「o1-preview」モデルは「4o」モデルと比べてできないこともあります。

ウェブ閲覧
ファイルのアップロード
画像処理

上の項目については、「o1」にアクセスできるようになる時や将来の改善によって使用できるようになると思います。（公式のWhat's Nextに書いてあります）

さらに、「o1」モデルは「4o」より約30倍ほど遅く、API利用のコストも高いです。

そのため、「o1」が得意なこと、「4o」が得意なことを理解した上で、必要に応じてそれらを使い分けることをおすすめします。

「o1」モデルが得意なこと

推論を多く必要とする分野、特にSTEM分野（科学・技術・工学・数学）
- 論理的で深い思考（行動経済学者Daniel Kernemanの本で出てくるシステム２的なやつ）
- 理系のイメージ？
コーディングやソフトウェア開発

以下参考のように「o1-preview」モデルを用いると開発が捗っているそうです。

参考：
Making 3d FPS game fully in HTML（redditで投稿されたものです）

「4o」モデルが得意なこと

一般的な自然言語タスク
- 直感的で速い思考（システム１的なやつ）
- 文系のイメージ？
Web検索、画像解析、ファイルアップロードが必要なとき（現状）
スピードとコスト効率が優先されるとき

以上から、「o1」モデルと「4o」モデルは対立する関係というより補完し合う関係だと認識しています。

o1モデルの将来性

「o1」モデルの将来について語ります。
まず、OpenAIの研究者であるNoam Brown氏は「o1」発表日に以下をXに投稿しています。

日本語訳「OpenAIの o1 は数秒で考えますが、将来のバージョンでは数時間、数日、さらには数週間考えられるようにすることを目指しています。」

「o1」モデルは推論すればするほど、賢くなるため、今まで人の手では解決することが容易ではなかったタスクに長時間かけて取り組むことにも用いられます。具体例を挙げると、「がん治療薬を開発して」や「COVID-19の治療薬を開発して」と言ったら後は待つだけみたいな感じです（ここまで簡単にいかない、まだまだ先のことかもしれませんが、できるようになる日がきっと来ると思います）。数学分野でいうと、ラマヌジャンのように毎日新しい定理を発見してくれるようになると思いますし、化学分野でいうと、革新的な素材が発見されると思います（というか新しい素材はAIによってすでにたくさん発見されており、その中に未来の技術に応用できそうな素材もあるそうです⇒こちら）。

OpenAIのCEOであるSam Altmanは2024年初めに、AIにおいて「最も重要な進歩の領域は推論能力に関するものとなるだろう」と述べています。

▶︎ ソースはこちら

今後もAIの大きな進歩に期待しつつ、良い意味でも悪い意味でも私たちは今後来たる未来に向けて準備をしなくてはならないですね。

おわりに

ここまで記事を読んでいただきありがとうございます。
「o1」モデルについて少しでも理解が深まれば嬉しいです。
今回、私は「o1」モデルについて調べたとき、大きなワクワクと同時に、将来どうなってしまうのだろうと少しだけ不安に感じました。

なので、私にはできて「o1-preview」モデルにできないことも探しました。

これで私の不安は少し和らぎました。
「o1」モデルは国際数学オリンピックに出場できる実力を持っており、博士課程レベルの専門知識も持っているのに、「4o」モデルと同じく小数点以下の計算ができないのは可愛いですね。好感度があがりました。

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up