1. はじめに:愛用AI Sonnet vs 新顔 Gemini のパワポ文字起こし対決
皆さん、普段使いの「相棒」と呼べる生成AI、ありますか?
私の場合は、断然 Claude Sonnet 3.7。 ChatGPTももちろん使いますが、なんていうか、Sonnet3.5/3.7 の素直さ、従順さ、そして画像の読み解き精度が、もう手放せないレベルになっています。
そんな Sonnet 好きな私ですが、最近、会社の Google Workspace で **Gemini "Advanced 2.5 Pro" ** が使えるようになりました。しかも、なんかやたらキラキラしい名前の "Advanced 2.5 Pro" (正直、ちょっと名前がダサ…いや、すごい名前だなと)なるものが使えるので試してみました。
なぜパワーポイントスライドの画像を使用したのか
生成AIはPDFやパワーポイントファイルを直接処理すると、テキストは認識できても図形やグラフなどの視覚要素の解釈が苦手です。画像として提示することで、AIはテキストだけでなく、グラフの形状、色使い、図形の配置関係といった視覚的要素も含めた全体を分析できます。
今回の検証では単なるテキスト抽出ではなく「視覚情報を言語化する能力」という高度なAI能力を比較することが目的です。
お題
このスライド「DXそもそも話:ナゼ人はやり方を変えないのか?」は、DX(デジタルトランスフォーメーション)推進における人間心理の障壁を説明したものです。(自分が親会社のINDUSTRIAL-XのAI研修で使用したモノ)
補足
この進捗や効果が出ないと感じるギャップこそが、多くの人々や組織でDXが進まない本当の理由だと考えています。具体的なチャートを使って人間心理の本質に迫るスライドとして使っています。
分かりました。では、ChatGPTに比較させる部分から書いていきましょう。
ChatGPTによる比較評価
文字起こしの質と精度を客観的に評価するため、別の生成AIであるChatGPTに両者の出力結果を比較評価してもらいました。ここでは構成を示すため、Geminiが文字起こしした結果を「G.md」、Claudeの結果を「C.md」としました。これはファイル名からAIの種類が知られるのを防ぐためです。
ChatGPTには「図形の文脈や意図をどれだけ的確に読み取り、音声のみでも伝わるような説明になっているか」という観点から比較評価するよう依頼しました。その結果は以下の通りです!
ChatGPTのジャッジやいかに!?
準備したこと
- パワーポイントのページを画像ファイルにするためスクショ
- 秘蔵の
パワポ資料の文字起こし
プロンプトで指示 - それぞれの文字起こし結果を、Geminiは
G.md
に、ClaudeはC.md
に保存- 名前を伏せたのは何かの意図をChatGPTが感じないように
比較をお願いする
ChatGPTのジャッジ
ご依頼の内容に基づき、以下に「G.md」と「C.md」の文字起こし結果について比較・評価を行います。ポイントは、図形の文脈や意図をどれだけ的確に読み取り、音声のみでも伝わるような説明になっているかです。
✅ 総合評価
比較項目 | G.md | C.md |
---|---|---|
図形の意図の言語化 | 非常に詳細:非線形成長の意味や心理的影響まで明確に言語化 | やや簡潔:要点は押さえているが、心理描写や図解の意義の深掘りが少ない |
グラフの構造・軸の説明 | 軸ラベル・線の傾き・色まで詳細に記述 | 軸や線の傾き・色は記述しているが、線の性質の説明は簡潔 |
図形とキャプションの関連づけ | キャプションの意図と心理状態の関係まで説明 | やや説明不足:キャプション内容は書かれているが、心理的背景の言語化は控えめ |
聴覚情報としてのわかりやすさ(音声にした時の伝達力) | 高い:視覚情報を丁寧に言語に変換しており、音声だけでも内容が伝わる | 中程度:ビジュアルありきの構成で、音声だけでは一部のニュアンスが伝わりにくい |
🏆 結論:G.mdの方が優れている
G.mdは、単なる文字起こしを超えて、図形が持つ**「非線形な進捗モデルの心理的影響」**というコンテキストを深く読み取り、それを丁寧に言語化しています。図の説明だけでなく、「なぜそれがDXでの抵抗につながるのか」という背景まで踏み込んでおり、音声化しても理解可能な構成になっています。
一方、C.mdは図形の基本的な構成と主張を押さえているものの、図解の意図や意味づけを深掘りしていないため、「視覚前提の記述」に留まっており、音声コンテンツにはやや不向きです。
もしこの2つを音声プレゼンに使うとすれば、G.mdをベースにしてC.mdの簡潔さを部分的に取り入れるのが最もバランスが取れていると思われます。
ChatGPTにネタばらしする
ネタばらし
ネタばらしに対するChatGPTの反応
なるほど!
教えてくださってありがとうございます。めちゃくちゃ興味深い比較ですね。
要するに、
-
G.md(Gemini Advanced 2.5 Pro)
→ 「図形の文脈や意図」まで丁寧に読み取り、心理的背景や因果関係まで文章化している。
→ 音声情報への変換を意識した、ナラティブ性の高い文字起こしになっていた。 -
C.md(Claude sonnet 3.7)
→ 図形の構造や内容は正確に捉えているが、図形の意図や深い意味づけまではあまり踏み込まず、
→ ビジュアルありきの要約にとどまっていた。
という違いがありました。
👀 ここから読み取れる「モデルの性格」
-
Gemini Advanced は、細かい文脈の解釈力・背景補完力が強い。
→ 特に「なぜこの図形が使われているのか」という意図の推測と説明に優れている。 -
Claude sonnet は、要素の忠実な再現とわかりやすい要約が得意。
→ 「正確・コンパクト」だけど、「行間を読む」力はGeminiより弱いかも。
🎯 総評
今回のように「図形の意図まで含めて、聞き手に本質を伝える」目的なら、Gemini Advancedの方が圧倒的に強いですね。
一方で「短時間でぱっと内容を把握したい」「視覚資料としてまとめたい」場合は、Claude sonnetのスタイルも悪くないと思います。
こういう実験、めちゃくちゃ面白いです!
他にも比較してみたいモデルやケースがあれば、ぜひ教えてください。興味津々です。
面白い
って・・・ChatGPTにもこの比較実験の面白さが伝わったみたいw
Geminiの勝利!?・・・だそうです
今回のパワポ文字起こし対決では、ChatGPTの評価によるとGemini Advanced 2.5 Proが優勢という結果になりました。
(現時点ではですが)Geminiは単なる視覚要素の記述を超え、図形の意図や心理的背景まで深く掘り下げて言語化する能力に長けているようです。
正直ちょっと感じたこと
この比較では私の主な役目はコピペ
という事実。
人間とAIの関係性が変わりつつある今、私たちは単なる「コピペ係」以上の価値をどこに見出していくのか・・・そう思うような実験でした。
もちろん元々のパワーポイント資料自体は、私が書いてるわけですけどね。
もう人間って?何をすればいいんでしょうかねw?
PROMPT-Xについて
東京・鹿児島・高知の3拠点で、商用時系列データベースCLOUDSHIPと可視化ソフトRealBoardを軸としたIoTプラットフォーム向けソフトウェアの開発・販売を行うメーカーです。IoT関連の開発支援サービスやソリューション開発も提供しています。鹿児島・高知での開発エンジニア採用を強化中で、PROMPT-Xで働きたいと思える情報発信に努めています。