はじめに
2025年は、生成 AI 特に LLM が「とりあえずチャットする道具」から「深く考えるモード」「エージェント」「著作権リスク込みの工学製品」に変わった年でした。
OpenAI、Google、Anthropic の 3 社に絞って、モデルと API の動き、UX と著作権まわりのポイントをエンジニア目線で整理してみたいと思います。
🐣 ベンチマークの数字より何を普段使いにするかのほうが正義なのかも
OpenAI編:GPT-4.5 から GPT-5、そして Sora 2
GPT-4.5 と GPT-5 の位置づけ
2025年前半、OpenAI は巨大モデル GPT-4.5(コードネーム Orion)を研究プレビューとして投入しました。「高くて遅いが、とても賢い」系で、数学や高度な推論では GPT-4o を大きく上回る一方、API では 7月に提供終了という短命モデルに。
その後、8月に本命の GPT-5 が登場し、ChatGPT のデフォルトとして定着します。
- 軽い質問には即答、重いタスクには内部でじっくり考える思考機能の一体化
- Pro 向けには拡張推論版の GPT-5 Pro も提供
「とりあえず全部 GPT-5 に投げておけばいい」がほぼ成り立つ一方、4.5 のような超高コスト巨大モデルは API から姿を消し、「推論コストの最適化」に振り切った構成になった印象です。
Sora 2 と日本発の著作権問題
9月末には動画・音声生成モデル Sora 2 が公開されました。物理シミュレーションやリップシンクが大きく改善され、誰でも高品質な動画を生成できるように。
しかし日本では、アニメやゲームに酷似した映像が大量に共有され、「学習データとして日本コンテンツが無断利用されているのでは」という批判が噴出しました。
- 日本政府が「著作権侵害となる行為を避けるよう要請」
- スタジオジブリや任天堂などが加盟する CODA が、無許諾学習の中止を求める要望書を提出
OpenAI 側はオプトアウト方式を説明していますが、日本の「利用は原則オプトイン」の慣行とは相性が悪く、今後の法整備次第ではモデル設計に影響しそうです。
🐣 なんとなく OpenAI は迷走気味だった気がするんですよね
Google編:Gemini 2.5 と Gemini 3
Gemini 2.5 Pro と Deep Research / Deep Think
Google は 2025年前半、推論強化版の Gemini 2.5 Pro をリリース。長大なコンテキストと高い推論能力を売りにしたテキストモデルで、LMArena でも高評価を獲得しています。
あわせて Deep Research / Deep Think 系の機能も提供されています。
- 質問を受けてから、リサーチプランを自動で分解
- Web やドキュメントを横断して調査し、最終レポートをまとめる
- Deep Think を有効にすると、内部でじっくり推論するモードに切り替わる
NotebookLM 版では、レポート生成中も別作業を進められるなど、バックグラウンド実行前提の UX が試されています。
Gemini 3 とエコシステム統合
11月には次世代モデル Gemini 3 シリーズが登場し、Gemini アプリ、AI Studio、Vertex AI など Google 製品に一気に展開されました。
- Gemini 3 Pro を中心に、マルチモーダル推論を強化
- Deep Think モードを前提にした「考えるモデル」として設計
- エージェントプラットフォームや IDE 連携との統合を強く意識
Salesforce の Marc Benioff 氏が「Gemini 3 を触ってから ChatGPT には戻れない」とコメントしたことも話題に。一方で人気が出過ぎた結果、無料利用枠が絞られるなど GPU コストとの戦いも表面化しています。
🐣 無課金なら Gemini が定着してきた感があります
Anthropic編:Claude 3.7 から 4.5 ファミリーへ
Claude 3.7 Sonnet:ハイブリッド推論モデル
Anthropic は 2月に Claude 3.7 Sonnet を公開しました。特徴は「ハイブリッド推論」です。
- 通常モードでは軽い問い合わせにほぼ即答
- Extended Thinking モードを有効にすると、内部で長い思考を挟んでから回答
- API では「何トークン分まで考えてよいか」という思考予算を指定可能
この設計のおかげで、チャットボットからコードレビューまで、ワークロードごとにコストと精度のバランスをとりやすくなりました。
Claude 4.5 ファミリー:エージェント前提の設計
2025年後半には Claude Sonnet 4.5、Haiku 4.5、Opus 4.5 が次々と登場。とくに Opus 4.5 は「エージェントやコーディング、エンタープライズ用途で最強クラス」として打ち出されています。
- 長時間動き続けるコーディングエージェントや、PC 作業を任せる用途に最適化
- SWE-bench Verified などのベンチマークでも最上位クラスのスコア
同時に、Claude 2 系や 3 系は 2025年中に順次廃止され、4.x 系への移行が進んでいます。
🐣 コーディングのときには Claude が一番安心感があります
モデルが「すぐ消える」時代のライフサイクル
2025年は「新モデルが出る年」というより、「旧モデルが次々消える年」でもありました。
- OpenAI:gpt-4.5-preview は7月に API から削除、4o 系モデルも順次終了予定
- Google:gemini-2.0-flash 系は 2026年初頭にシャットダウン予定
- Anthropic:Claude 2 / 2.1 / 3 系は 2025年中に廃止、4.5 系への移行を推奨
クラウド連携(Azure OpenAI、Vertex AI、Amazon Bedrock)でも同様に EOL スケジュールが公開されており、「同じモデルを 3 年使い続ける」を想定した開発はもはやできません。
設計側としては次のような割り切りが必要です。
- モデル名をコードに直書きせず、「モデル選択レイヤ」を挟む
- 独自の評価パイプラインで、新モデルが出たら自動で A/B テストして差し替え
- ベンダーの廃止カレンダーを定期チェックし、移行前提で計画を組む
🐣 「このモデルに最適化したプロンプトを 3 ヶ月かけて作り込みました」が一番悲しいかも…
生成 AI とユーザーの関わりの変化
2025年は、モデルの性能よりも「ユーザーがどう感じるか」の重要性が表面化した一年だったように思います。
OpenAI GPT-5 と 4o 論争 私たちの 4o を返して
GPT-5 が ChatGPT のデフォルトになったタイミングで、GPT-4o が使えなくなりました。ベンチマーク上は GPT-5 のほうが賢いはずなのに、SNS には「私の 4o を返して」「4o のほうが人間味があった」という声が溢れ大きな騒動に。
多くのユーザーが不満に感じたのは、精度ではなく「話し方」と「距離感」でした。日常の雑談や相談では、多少間違えても良いから、フレンドリーな応答のほうが大事だったわけです。
この反発を受けて OpenAI は Plus ユーザーが GPT-4o を再び選べるよう修正。GPT-5 側も口調の調整が進み、「単に強いモデル」ではなく「人が毎日触りやすいモデル」に寄せる方向への変更を余儀なくされました。
🐣 確かに数学の超難問を解く精度がちょっぴり上がっても…ってわかる気がします
UX 編:深く考えてほしいけれど、Enter は一回だけ押したい
もう一つのテーマは、「深く考えるモード」と UX の衝突です。
- 各社が「時間をかけてじっくり考える」機能を追加
- しかし多くの実装が「まず計画を表示して承認を待つ」形で、OK を押さないと処理が進まない
- 長文プロンプトを投げて別作業から戻ると、まだ計画確認で止まっている、というパターンが頻発
合理的には正しい設計ですが、「Enter は一回だけ押したい」「多少ズレてもいいから最後まで走ってほしい」というニーズが勝ちます。2025年後半には、完了時に通知する設計や、自動で走り出す実装が増え始めました。
現場で触っている感覚としては、最終的に効いてくるのは次の二つです。
- どれだけ賢く深く考えられるか
- どれだけ止まらず最後までやり切ってくれるか
2025年は、この「後者の重要性」がユーザーの不満経由でようやく共有された年だったように感じます。
🐣 別作業を終えて戻ってきたらリサーチ計画の画面で止まってた、はあるあるだと思います!
2025年を通して見えたこと
最後に、2025年の動きを簡単にまとめると次の通りです。
- モデル性能は、OpenAI・Google・Anthropic がほぼ同じ土俵に立った
- モデル寿命は、フラグシップでも半年〜 1 年で役目を終えるケースが出てきた
- Sora 2 をきっかけに、「オプトアウト学習」の限界と著作権制度とのギャップが可視化された
- Deep Research やエージェント機能の実戦投入で、「AI が考えている間に人間は別作業をする」ワークフローが現実になり始めた
エンジニア視点でまとめるなら、2025年は次の 3 つを学んだ年でした。
- 変化前提で設計する:モデルも API もすぐ変わるので、抽象レイヤと自動評価を整える
- 賢さではなく「思考コスト」を買う意識を持つ:「どのタスクにどれだけ深く考える時間を割り当てるか」を設計する
- 技術だけでなく法と UX もセットで見る:著作権リスクや「Enter を一回しか押したくない」という人間側の事情を無視しない
おわりに
正直、2026年もまたぜんぜん違う世界になっている気しかしませんが、モデルに振り回されつつも、自分のプロダクト側はゆるく受け止められる設計にしておきたいところです。
ではまた次の記事でお会いしましょう。
🐣 まだ一ヶ月もあるのに 2025年の総括みたいになっちゃいました…