はじめに
当記事は2022年11月30日にOpenAIがChatGPTを公開した日から、どこまで劇的な変化が起こったかという点を備忘録も兼ねて載せたものである。
細かい日付に関してはサイトなどを確認し点検したが誤っている可能性もある。参照する場合は留意願いたい。
導入
2025年3月26日、Googleから最新AI「Gemini 2.5 Pro Experimental」が展開された。
切り拓く世界は、まさに「驚異」の一言だった。複雑なタスクを軽々とこなし、長大な文脈を理解し、人間と見紛うほどの自然さで対話する。思考の流れを追うことも出来るし、Web検索を行って最新の状況も盛り込んでくれる。感情分析も完璧に近く、問い合わせの中にある焦りや不安までも的確に読み取る。
このようなモデルが、手の届く範囲に位置することがにわかに信じがたい。これは動向を追ってきた人なら誰もが感じていることのはずだ。
しかし同時に、この目まぐるしい進化の速度には、正直なところ目がくらみそうになる。
「数年前はこうではなかったはずだ……」
この感覚は、私だけではないだろう。
現在地を正しく理解するために、一度立ち止まって、ここに至るまでの道のりを振り返ってみる必要がありそうだ。あの衝撃的なChatGPTの登場から今日まで、わずか数年の間に、AIの世界で一体何が起こってきたのか。
本稿では、その激動の軌跡を辿りながら、AI進化の主要なマイルストーンを整理していきたい。
本文
1. OpenAIの猛進
ChatGPT (2022年11月30日)
OpenAIが公開したサービス。
GPT-3.5をベースとしたこのサービスは、人間と自然な対話ができる能力で世界中に衝撃を与えた。
これによりテキスト生成、翻訳、要約、質疑応答、簡単なコード生成などを、誰でも手軽に試せるように。AIが「使える」ツールとして一般に認知されるきっかけとなった。
ただし、見当違いのことを発言することも多々あり。あくまで質問に対しそれっぽい応答をしてくれるツールとしての認識が大きかった。
- トンチンカンな回答を面白がっていた人もいたはずだ……
GPT-4 (2023年3月14日)
GPT-3.5を大幅に上回る性能を持つモデルとして登場。
群を抜いたパラメータ数により、複雑な指示の理解、高度な推論、創造性、長文の処理能力が向上。司法試験などの難関試験で高いスコアを出すなど、専門的なタスクへの応用可能性を示した。
また、2023年9月には画像を入力として理解できるマルチモーダル機能(GPT-4V)も搭載された(当初は限定提供)。
コストは非常に高いものの、応用的なタスクに対しても取り組めるようになったことで、実用的なモデルとしてブレイク。
とはいえ、この時はまだ一部の企業、研究職が使う程度のものだったように見える。
GPT-3.5 Turbo(2023年3月8日)
無料で利用できるChatGPTの基盤モデルとして登場。性能こそGPT-4に遅れを取るが、コスト面、速度面においては圧倒的。対話型AIが一部の専門家だけでなく、世界中の一般ユーザーや学生、ビジネスパーソンにまで広く利用されるきっかけとなった。
また、APIとして利用する場合でも劇的な安価(従来モデルに比べ1/10)を実現。
スタートアップ企業や個人開発者でも、コストを抑えながらAIを自社のサービスやアプリケーションに組み込むことが可能に。
2. 競合の登場、加熱
OpenAIの独占状態であったところに競合が登場。
2023年3月に多くのモデルがリリースされて以降、熾烈な争いが(現在進行形で)繰り広げられている。
Claude(Anthropic、2023年3月~)
2023年3月14日に公開されたモデル。
「善悪を判断できる、有益かつ正直で無害なAIアシスタント」としてリリース
以降、段階を踏んでリリースを実施。
- Claude2(2023年7月11日)
- Claude 3(2024年3月4日)
- 上位モデル「Opus」 標準モデル「Sonnet」 廉価モデル「Haiku」の3つを提供
2025年3月末時点でよく用いられるのは、以下の2つ。
- Claude3.5 Sonnet(2024年6月21日)
- Claude3.7 Sonnet (2025年2月24日)
Gemini (Google、2023年3月~)
2023年3月21日にアメリカ、イギリスで提供(日本は2023年4月18日)されたモデル。
最初はBardと呼ばれていた。(2024年2月8日をもってGeminiへ改名)
ChatGPTによるGoogleサービスの利用低下を懸念して作られた。
現在ではGemini2.5Pro Experimental(2025年3月26日)が最新。
オープンソースLLM (Llama 2/3, Mistralなど、2023年〜)
Meta社のLlama 2/3や、フランスのMistral AIなどが高性能なオープンソースモデルを公開。
企業や研究者が自由にモデルを改変・利用し、特定の業界やタスクに特化したAIの開発、オンプレミス環境での利用などを進めるように。
ちなみに画像生成のオープンソースAI「Stable Diffusion」は2022年8月22日の登場と、ChatGPTの登場よりも早い。
3. AI利用サービスの台頭
生成AIをラッピングし、効率化を実現するサービスが続々と登場し始めた。
Github Copilot(Github、2021年6月29日)
エディタに記入されたソースの続きを自動補完する。OpenAIが開発したGPTベースのAIを利用。
コーディングに限定し、かつ精度も完璧とは言えなかったが、AIツールが本格的に流行する前に登場したのもあり、根強い人気がある。
段階的な機能追加・改善が行われており、ファイル全体を解析し、コードの修正・置換・リファクタリングなどを実行する「Copilot Edits」などが提供されている。
Perplexity(Perplexity AI、2022年12月~)
AIブラウザの先駆けと呼べる検索エンジン。自前のAIを利用。
検索指示文に対して、Webからの情報源を用いて回答を作成、根拠となる情報源を提示する機能がある。
CEOであるSrinivasはOpenAIのAI研究者だった経歴がある。
Cursor (Anysphere、2023年初頭〜春頃)
AIコーディングアシスタント。ソースコードの補正、新規作成を行う。
各社が提示する多くのモデルから最新のものを適用できるのが特徴。
Dify(LangGenius、2023年5月頃)
GUI上でAIを用いたアプリを作ることが可能なオープンソースプラットフォーム。
プログラム実装部分を、設定値を決め、ブロックを繋ぎ合わせるだけで実現できることから人気を博した。
4. Open AI SoraによるAI生成動画の公開
2024年2月にOpenAIは動画生成モデル「Sora」により作られた動画を公開。
脈々と続くコンテンツ生成の到達点を見せた。
追従するように他企業からも「Veo2」(Google)「Gen-3 Alpha」(Runway)といったモデルが公開。
5. オール・イン・ワンの時代へ
5-1. 発端
GPT-4o (OpenAI、2024年5月13日)
GPT-4をベースに圧倒的に安く、あらゆる入力・出力への対応(マルチモーダル)を可能とした決定版。
データ媒体ごとに様々なモデルを使い分ける必要がなくなったほか、性能はともかく部分的にしか介入できないとされたAIの利用が、広範囲に適応できることが示唆された。
- 愚鈍な自分でも、流石に危機感を覚えた
5-2. 推論モデル
OpenAI o1(OpenAI、2024年9月12日)
論理的思考(reasoning)能力を強化した大規模言語モデルとして登場。
o1は回答する前に思考時間をとるため、STEM(複雑な論理的思考が必要とされるタスク、科学、数学、プログラミングなど)においてより高度な能力を保持する。
専門的な分野でなら……という安堵も出来なくなった。
5-3. エージェント機能
2024年、特に10月より活発化。
状況に応じて適宜分析・判断を行うことで、人が提案したタスクに対し最適な手順による対応、または継続的な活動が可能に。
連日のようにQiita、SNSでの利用実績が挙がるようになった。
- Devin、Cline、Claude Codeといった、自動コーディング、代理活動ツール
-
フルスタック自動作成サービスの登場
自然言語を入力することで、フルスタック(バックエンド+フロントエンド)環境を自動生成するツールが登場し、爆発的な人気を博した- Create.xyz、v0、ReplitAgent、Bolt.new など……
5-4. DeepResearch
2024年末~2025年2月においては、数十~数百のサイトから網羅的に情報を収集、精度の高いレポートを作り上げるといった機能が各社より提供された。
5-5. 新世代モデル
2025年では、上記の要素を取り込んだモデルが続々と登場。あらゆる指示に対し、最適な方法で回答を返すレベルにまで達しつつある。
- Gemini2.5 Pro、Claude3.7、GPT-4.5、Grok3など…
【補足】スケーリング則の終わり?
- DeepSeek-R1(DeepSeek、2025年1月20日)
- 中国が提示したオープンソースモデル
- メジャー企業のモデルと比べると圧倒的に少ないパラメータ数で高性能なモデルを作ったことで話題に
- NVIDIAの株価が一時暴落したのは有名
- 中国が提示したオープンソースモデル
なぜここまで成長した?
潤沢な資金と人材の集中
ChatGPTの成功がAI分野への空前の投資ブームを引き起こし、世界中から優秀な研究者やエンジニアがこの分野に集結、潤沢な開発リソースを利用することが可能になった。
スケーリング則の証明
GPT-3の頃から示唆されていた「モデルサイズやデータ量を増やせば性能が向上する」という法則 (Scaling Laws) がGPT-4で改めて証明され、「大規模投資すればさらに凄いものができる」という認識が生まれた。これが更に巨額の投資を呼び込むことに繋がった。
Transformerアーキテクチャの汎用性
テキスト処理で大成功したTransformerが、画像や音声など他のデータ形式にも有効であることが分かり、マルチモーダル化への技術的な道筋が明確になった。
ハードウェアの進化
NVIDIA製GPUをはじめとする計算基盤の性能向上が、より大規模なモデルの学習と効率的な推論を可能にした。
激しい開発競争
OpenAI、Google、Meta、Anthropic、Mistral AIなどが、互いに性能や新機能を競い合う状況が、開発サイクルを極端に短縮させていった。
オープンソースコミュニティの力
MetaのLlamaシリーズやMistral AIのモデル、Stability AIのStable Diffusionなどがオープンソース化されたことで、世界中の開発者が自由に改良や応用研究を進め、イノベーションが分散・加速した。
技術の組み合わせによるブレイクスルー
LLM単体だけでなく、外部ツール連携(API呼び出し)、検索機能、メモリ機構などを組み合わせることで、より複雑なタスクをこなす「AIエージェント」のようなシステムを構築する技術やフレームワーク(LangChainなど)が登場・発展していった。
実用化によるフィードバックループ
多くの人が実際にAIを使うようになったことで、膨大な利用データやフィードバックが集まり、それがモデルの改善や新たな応用分野の誕生に繋がった。
課題はどこにある?
現時点において、もはや隙がないように見えるAIモデルであるが、課題自体は多く残っている。
-
AIの宿命
- 学習データに依拠する以上は「ハルシネーション」「バイアス」からは逃れられない
- どういう形式にせよ、人の指示によるトリガーが必要である
- エージェントはあくまで、トリガーの回数を減らすための工夫である
-
悪用リスク
- 「~が出来る」を先行し過ぎた結果、制度やルールの規定(ガードレール)が追いついていない
- 今後更に敷居が下がった場合の混乱が懸念される
- 特にローカルLLMにおいては制約を取り払うことが出来る反面、責任に基づく使用が求められる
余談
カッコいい「導入」の部分もまた、「Gemini 2.5 Pro Experimental」が8割仕上げている。