はじめに
2025年、生成AIの画像認識(マルチモーダル)が大きく覚醒しました。
高校生の僕は、数学や電気回路の勉強でわからない問題があると、スマホで写真を撮ってGeminiに投げるようになりました。Geminiは公式ヘルプでも学習ツールとしての利用が案内されている通り、非常に優秀な家庭教師になってくれます。
でも、使い始めてすぐに「ある怪奇現象」に直面しました。
「途中式の計算は完璧なのに、なぜか最終的な答えが間違っている」んです。
原因はAIがポンコツだからではなく、僕の「画像の撮り方」にありました。
ページ全体を撮るという大罪
最初は、参考書やノートの「ページ全体」をパシャッと撮って、
「大問3を教えて」と雑に投げていました。
人間からすれば、どこに大問3があるかはすぐにわかります。
しかし、これをやってしまうとGeminiの回答精度は劇的に落ちてしまいます。
全体を写すと解像度が落ちる
画像全体を処理する際、1文字あたりのピクセル数が減るため、細かい数式や添字の認識率が著しく低下します。
その結果、何が起きるでしょうか。
- $x^2$ を $x_2$ と読み間違える
- 積分区間の細かい数字を見落とす
- 回路図の抵抗($R$)とコンデンサ($C$)の記号を混同する
Geminiは「誤認識した間違った数字」を使って、完璧なプロセスで計算をしてしまうのです。
だから、計算自体は合っているのに答えがおかしくなる(そして自信満々に間違える)という現象が起きていました。
精度を劇的に上げる3つの「分割」テクニック
この仕様に気づいてから、僕は画像の渡し方を徹底的に変えました。
結果、数学も電気回路も、ハルシネーション(嘘)がほぼゼロになったのです。
① 1問ずつ必ずトリミングする
一番重要なのはこれです。面倒でも、解いてほしい問題1問だけが画面いっぱいに映るようにトリミングします。
余計な問題やテキストが入らないことで、AIのフォーカスが散らず、数式の読み間違いが劇的に減ります。
② 「問題文」と「図」を分けて添付する
電気回路の問題で特に効果があったテクニックです。
回路図と問題文がセットになっている場合、1枚の画像で済ませると「問題文の条件」と「図の中の数値」の紐付けに失敗することがありました。
実際のプロンプト例
「画像1枚目が問題文、2枚目が回路図です。
図中の抵抗値と電源電圧を読み取った上で、キルヒホッフの法則を使って解き方をステップバイステップで教えてください」
このように「図は別」として高解像度で渡すと、電気回路の複雑な閉回路でも正確に立式してくれるようになりました。
③ いきなり答えを出させない
これは画像認識の精度とは少し違いますが、勉強で使うなら必須のプロンプトです。
この問題を解いて。
この問題の解き方を教えて。
まずは答えを書かずに、使うべき公式と、最初の一手だけをヒントとして出して。
AIに「一気に答えまで出力」させると、途中で計算ミスをしたまま最後まで突っ走ることがあります。
ステップを分割させることで、途中の立式が合っているか自分で確認しながら進められます。
おわりに
2025年、Geminiを使ったことで僕の勉強効率は間違いなく爆上がりしました。
でも同時に学んだのは、「AIの目は人間と同じではない」ということです。
人間なら「ここを見ればいい」と文脈で補えることでも、AIには解像度という物理的な壁があります。
- 全体を写さず、問題ごとに切る
- 必要な図は別画像で分けて高解像度にする
これだけで、生成AIは「たまに嘘をつくポンコツ」から「東大生レベルの家庭教師」に変わります。
AIに数学や物理を聞いて「なんか違うんだよな」と思ったことがある方は、ぜひ「画像のトリミング」を試してみてください!