参考
https://youtu.be/kdpI49lmSQ8?si=sD-UFpzSAFVuIdOD
AIなんぞやレベルの人間が安野さんのYoutubeをみてまとめています。
1. Gemini3.0のリリース背景
Google社が AI の新しい版であるGemini3.0を公開した。前の版は2.5で、数字の一桁目が変わる更新は規模が大きく、開発側の手応えを示している。(メジャーアップデート)
ChatGPT では 5.0 → 5.1 のような小さな段階更新が続いていたため、今回の更新は対照的である。
2. 名前の読み方
日本語では「ジェミ二」が使われることが多い。英語圏のGoogle社員は「ジェミナイ」と発音する。語源がラテン語であるため、本来の読みに近いのは「ジェミニ」である。
3. ベンチマークテスト(AI向けのペーパーテストみたいなもの)の状況
AI の力を測るための試験では、Gemini3.0が GPT5 や他社モデル(Anthoropicのsonnet)を上回る結果を出した。
4. ScreenSpot の位置づけと詳細
ScreenSpot は、パソコン画面の画像を与え、その内容をどれだけ正確に読み取れるかを測る試験である。
Gemini3.0はここで突出して高い数値(72.7%)を出しており、GPT5(3.5%)との差が極端に大きい。
画面理解が強い背景として、Google が映像・画像分野の積み上げを長年行ってきたことが考えられる。今後、AI が画面そのものを読み取り、実際に操作まで代わりに行う仕組みの基礎になると見られる。
2026年頃に、画面を見て自律的に動くAI(マルチモーダル)の利用が広まる可能性があるという見立てもある。
5. ARCAGI-2(ARC-AGI 2)の特徴と今回の結果
ARCAGI-2は、あまり飽和していないないテストである。
多くのAIが点を伸ばしにくい試験として知られており、従来モデルは数値が低かった。(伸び代がある)
今回、Gemini3.0はこの ARCAGI-2 で高い数値(45%)を出し、GPT5(18%)を明確に超えた。
6. 長文処理試験(MRC-RV2)の状況
MRC-RV2 は、非常に長い文章を読んで指示通りに答えられるかを見る試験である。
Gemini3.0は、扱える文章量そのものが大きい(100万トークン)ため、他モデルよりも有利な状態で試験に臨める。
特にコンテキストの上限が大きく、GPT5(40万語)や他社モデルより余裕がある。大量の文章をまとめて扱う用途で強みが出る。
7. 実際に使った印象
SNS上では、Gemini3.0を使って作ったウェブ画面や簡易ゲームの画面が共有されており、従来モデルで見られた不自然さが減っているという観察がある。(フロント強そう)
日本語文章の書き方も自然で、過剰に装飾しすぎる癖が少ないため、文章生成の品質が向上していると感じられる。マルチモーダル(エージェント的振る舞い)の良さはまだ不明。
9. ClaudCodeとの比較
今年注目されていたのは、黒い画面(コマンド画面)を文字で操作する自律型AI(ClaudCodeなど)で、ファイル操作やプログラム実行を自分で判断して進める能力が評価されていた。
ClaudCodeは文字中心のため、画面全体を視覚として把握する力は弱い。
Gemini3.0は「画面を見る側」に強いため、来年以降は、画面そのものを読み取って動くタイプが伸びる可能性がある。
10. 自律的な動き(エージェント性)について
エージェント的な振る舞い「試行錯誤しながらアクションをして問題を解決する能力」については、公開直後で情報が少ない。
Sonnet4.5の方がコーディングエージェントとしての能力が高そうという感想も一部にあるため、ここはまだ今後の評価が必要である。
11. 今後の見通し(現時点の予想)
出てから日が浅いのと、OpenAI が新しい版を出すと状況が変わる可能性は高い。
実際に使ってみて感想教えてほしい
![]()
![]()
![]()
![]()
![]()
![]()
![]()
![]()
![]()
![]()
![]()
![]()
![]()
![]()
![]()
![]()
![]()
![]()
![]()
![]()
![]()
![]()
![]()
![]()
![]()
![]()
![]()
![]()
▼ここから自分メモ
GUIとは
...「Graphical User Interface(グラフィカルユーザーインターフェース)」の略であり、ユーザーの使いやすさを重視し、アイコンやボタンなどを用いて直感的にわかりやすくコンピューターに指令を出せるようにしたユーザーインターフェース
CUIとは
...「Character User Interface(キャラクタ・ユーザ・インターフェース)」テキストベースのインターフェースを指し、ユーザーはコマンドラインやターミナルを通じてコンピューターと対話する。 Windowsでは「コマンドプロンプト」、LinuxやMacOSでは「端末」「ターミナル」とも呼ばれる。
AIとは
「artificial intelligence」の略。日本語にすると「人工知能」。コンピューターで人間みたいなことをする仕組みのこと。AI は、人が行う「考える」「判断する」「文章を書く」「絵を読む」といった作業をまねるための仕組みである。
学ぶ仕組み
AI は大量の例を読み取り、その中から共通する動きを学ぶ。
たとえば文章なら、どう書けば自然に続くか、どう返せば意味が通るか、といったパターンを身につける。人間が「こう答えなさい」と細かく教えているわけではなく、自動で規則をつかむところが特徴である。
LLMとは
【頭脳】
「Large Language Model」の略で、たくさんのテキストを学習して、人間のように自然な文章を理解したり作り出したりできるAIのこと。ChatGPT,GoogleのGemini, Claudeなどの中核はこのLLMである。
主な特徴は、
会話や要約、翻訳、プログラムのコード作成など、いろんな言葉に関わる作業が得意なこと
色々な業界で役立つ汎用性の高さ
膨大な情報に基づいた知識を持っていること
さらに特定の分野に合わせて調整できる拡張性があること
AIエージェントとは
【手足】
AIエージェントは、ユーザーの指示や状況の変化を理解して、自律的に行動し、目標を達成するAIシステムのこと。IBMの定義では、ツールを活用しながらユーザーに代わって仕事を完結できるプログラムを指す。
特徴としては、
最初の指示以降はあまり人の手を借りず自動で動き続けられる自律性
いろんな機能をまとめて一つの流れ(ワークフロー)で処理でき、作業のムダを減らせる接続性
活用例としては、業務の自動化やデータ分析、カスタマーサポートの効率化、マーケティング施策の最適化などがある。
Devinなど
Deep Learning
AIの大きな分類の中で、 は「基礎となる技術」。
終わりに
各社のLLMがどのような特徴を持っていて、どのような場面で使うと効果的なのかを知りたい思った。また、ChatGPTを活用しながら調べていくなかで以下の単語がでてきたが全部知らない単語だった。
- Transformer
- Attention
- 重みづけ
- ベクトル化
- 埋め込み(エンベディング)
- 位置情報(ポジション情報)
- エンコーダとデコーダ
- 自己回帰(オートレグレッシブ)
AI初心者の自分としてはAIと言われるものは階層別に理解したほうがよさそう。
AI
→ Machine Learning(機械学習)
→ Deep Learning(深層学習)
→ Transformer(深層学習の中の分類)
→ LLM(ChatGPT,Gemini,Claud 等)...テキスト専用。
→ マルチモーダルモデル...テキスト+画像+音声などを扱う拡張版
→ AIエージェント...LLMを使って行動する仕組み
