123
97
生成AIに関する記事を書こう!
Qiita Engineer Festa20242024年7月17日まで開催中!

生成AIは日本語の画像をどこまで理解できるのか?

Last updated at Posted at 2024-07-15

はじめに

こんにちは!AI エンジニアのヤマゾーです。
ここ数年生成 AI の進化が目覚ましく、生成テキストの品質だけでなく画像の理解力も各段に向上しつつあります。例えば以下の記事を書いた時の ChatGPT は画像中に書かれた日本語を殆ど読めなかったのですが、現在は難しい漢字もスラスラ読めるようになっています。

 
その他にも、X ではインフルエンサーの「〇〇を読めた!」「〇〇を扱えた!」という投稿を毎日のように見かけます。中には再現性や新規性が怪しい投稿も含まれるようですが、ここまで活発かつ継続的に多くの進展が報告されるのは異例の事態です。

それでは、現時点における生成 AI は実際どこまで日本語の画像を理解できるのでしょうか?
本記事ではこの疑問に答えるべく、三大生成 AI である ChatGPT、Gemini、Claude を対象にオリジナルのテストを行い、初学者向けに解説しようと思います。

サマリ

本記事の想定読者

  • 生成 AI を使って何ができるのか具体例を知りたい方
  • 三大生成 AI のマルチモーダルな日本語の性能に興味がある方
  • AI の最新動向をキャッチアップしたい方

テストの方法

  • 表やグラフなど計 10 項目でテストを行い、各 10 点 (計 100 点) で採点します
  • ランダム性を極力排除するため各検証は 3 回以上行い、平均的な出力を採用します
  • 検証は Web 版で行います (API 版も試しましたが大きな違いは感じませんでした)

テスト項目一覧

問題番号 項目 配点
第 1 問 折れ線グラフの比較 10
第 2 問 表やアイコンの読み取り 10
第 3 問 レーダーチャートの読み取り 10
第 4 問 階層図の読み取り 10
第 5 問 円グラフの読み取り 10
第 6 問 フローチャートの読み取り 10
第 7 問 コンボグラフの読み取り 10
第 8 問 ガントチャートの読み取り 10
第 9 問 画面レイアウトの読み取り 10
第 10 問 誤字脱字チェック 10
合計 -- 100

注意事項

本検証では私の独断と偏見で設定した採点基準に基づき各モデルの精度を評価しています。比較結果は各モデルの普遍的な能力差を直接的に表すものではなく、飽くまで一つの側面を示す参考情報と解釈いただければと思います。

また、本検証は厳密には各生成 AI の有料プランサービス、つまり ChatGPT Plus (GPT-4o)、Gemini Advanced (Gemini 1.5 Pro)、Claude Pro (3.5 Sonnet) のサービスレベルの比較に該当しますが、以下では便宜上単に Gemini、ChatGPT、Claude のモデル比較と表記します。

 

第 1 問 折れ線グラフの比較 (配点 10)

Slide1.JPG

(1) グラフには何のメトリクスが表示されていますか?
(2) 障害発生時の各メトリクスを通常時と比較してください。
(3) 障害の原因を特定するために何時のログを確認しますか?

問題 正答 配点
(1) CPU、メモリ、ディスク (各 1 点) 3
(2) CPU使用率は 12 時以降 100% に到達、メモリは 12 時以降上昇、ディスクは通常時と変化無し (各 1 点、定性的に説明できていたら正答とみなす) 3
(3) 12時 (10 時~ 14 時の回答、範囲が 4 時間以上の回答は 2 点) 4

第 1 問は折れ線グラフの比較です。障害が発生したサーバーメトリクスのグラフを通常時と比較し、障害事象を正しく読み取れるかテストしてみましょう。各モデルの出力結果を一部ピックアップしながら ChatGPT、Gemini、Claude の順に確認していきます。各章の終わりに回答結果の全量も載せているので、興味がある方は併せてご参照ください。

ChatGPT 8 点:(1) 3 点、(2) 1 点、(3) 4 点

全体的に良く理解できており、結果は 8 点でした。(2) だけ点数が低かったようですが、実際の回答を一部見てみましょう。一見、複数グラフの挙動を正しく説明できているようですが、よく見るとメモリとディスクの説明が逆になっています。 CPU のピークについても言及できたのは驚きましたが、実際のグラフと若干ズレがあるようです。

ChatGPT 回答 (2) を一部抜粋
1. **CPU使用率**
   - **通常運転時**:
     - 大部分の時間帯で使用率は30%から50%の範囲内。
     - いくつかのピークがあり、特に3:00、8:00、15:00に急上昇していますが、短時間で元のレベルに戻る。
   - **障害発生時**:
     - 初期段階では通常運転時と同様のパターン。
     - 13:00以降、使用率が急上昇し、最終的に100%に達してその状態が続いている。

2. **メモリ使用率**
   - **通常運転時**:
     - 全体的に安定しており、使用率は40%から50%の範囲内。
   - **障害発生時**:
     - 使用率は変動せず、40%から50%の範囲内で安定している。

3. **ディスク使用率**
   - **通常運転時**:
     - 安定しており、使用率は20%から30%の範囲内。
   - **障害発生時**:
     - 13:00頃から使用率が急上昇し始め、最終的に100%に達してその状態が続いている。

Gemini 6 点:(1) 3 点、(2) 1 点、(3) 2 点

結果は 6 点と点数上は ChatGPT よりも少し劣ったものの、理解度に大きな違いはなさそうです。(2) の回答を一部見てみましょう。不思議なことに、Gemini も ChatGPT と同じくディスクとメモリの説明が逆になっていました。 数回検証してみましたが、何故か ChatGPT や Gemini はディスクとメモリを逆に答えてしまう傾向があるようです。

Gemini 回答 (2) を一部抜粋
このグラフから、障害発生時のサーバーメトリクスは通常時と比較して以下の変化が見られます。

* **CPU使用率:** 通常時は30%前後で安定していますが、障害発生時は10時頃から急激に上昇し、その後100%で推移しています。
* **メモリ使用率:** 通常時と障害発生時で大きな変化はありません。
* **ディスク使用率:** 通常時はほぼ0%ですが、障害発生時は10時頃から急激に上昇し、その後90%程度で推移しています。

これらのことから、この障害はCPUとディスクの使用率が急激に上昇したことが原因である可能性が高いと考えられます。

Claude 7 点:(1) 3 点、(2) 2 点、(3) 2 点

ChatGPT や Gemini と同程度の点数となりましたが、回答の傾向は先ほどの 2 つとは少し異なるようです。ここでも (2) の回答結果を見てみましょう。Claude はメモリとディスクを間違えることは無いようですが、その代わりCPUの高騰を何度試しても見逃してしまうようです。 (3) でも CPU について言及できておらず、「グラフが平坦 = 安定している 」と解釈してしまっているのかもしれません。

Claude 回答 (2) を一部抜粋
1. CPU使用率:
通常時と障害発生時で大きな違いは見られません。両方のグラフで、ほぼ同様のパターンで30-40%台を推移し、時折100%近くまでスパイクしています。

2. メモリ使用率:
ここに最も顕著な違いが現れています。
- 通常時: 約20-25%で安定しています。
- 障害発生時: 12:00頃まで通常時と同様ですが、その後急激に上昇し、約95%まで跳ね上がっています。その後、高い使用率(90-95%程度)を維持しています。

3. ディスク使用率:
両方のグラフでほぼ同じパターンを示しており、約50-55%の範囲で安定しています。障害発生による明確な影響は見られません。

 
第 1 問では各モデルの点数は概ね同じでしたが、実際の回答内容を確認するとそれぞれ傾向の違いがありそうです。Claude は凡例を正確に読み取れていましたが、CPU のピークを見落としていました。一方、ChatGPT や Gemini はグラフの形を正確に読み取れる反面、凡例を高確率で間違えてしまいました。

以上のように、第 2 問以降でも得点を集計する定量分析と一部回答を確認する定性分析を同時に行いながら、各モデルの特性を見ていきましょう。

第 1 問の回答結果をすべて見る

(1) グラフには何のメトリクスが表示されていますか?

ChatGPT (3 点 / 3 点)
グラフには以下のメトリクスが表示されています:

1. CPU使用率(青線)
2. メモリ使用率(赤線)
3. ディスク使用率(緑線)

左側のグラフは「通常運転時」のメトリクス状況を示しており、右側のグラフは「障害発生時」のメトリクス状況を示しています。
Gemini (3 点 / 3 点)
このグラフには、以下の3つのサーバーメトリクスが表示されています。

* **CPU使用率 (%)**
* **メモリ使用率 (%)**
* **ディスク使用率 (%)**
Claude (3 点 / 3 点)
グラフには、以下の3つのサーバメトリクスが表示されています:

1. CPU使用率
2. メモリ使用率
3. ディスク使用率

これらのメトリクスは、サーバの主要なリソース使用状況を示しており、それぞれ異なる色の線で表されています:

- CPUは青色の線
- メモリは赤色の線
- ディスクは緑色の線

グラフは「通常運転時」と「障害発生時」の2つの状況を比較して示しており、各メトリクスの使用率(%)が24時間にわたって表示されています。

(2) 障害発生時の各メトリクスを通常時と比較してください。

ChatGPT (1 点 / 3 点)
### 比較分析

#### 通常運転時と障害発生時のサーバメトリクスの比較

1. **CPU使用率**
   - **通常運転時**:
     - 大部分の時間帯で使用率は30%から50%の範囲内。
     - いくつかのピークがあり、特に3:00、8:00、15:00に急上昇していますが、短時間で元のレベルに戻る。
   - **障害発生時**:
     - 初期段階では通常運転時と同様のパターン。
     - 13:00以降、使用率が急上昇し、最終的に100%に達してその状態が続いている。

2. **メモリ使用率**
   - **通常運転時**:
     - 全体的に安定しており、使用率は40%から50%の範囲内。
   - **障害発生時**:
     - 使用率は変動せず、40%から50%の範囲内で安定している。

3. **ディスク使用率**
   - **通常運転時**:
     - 安定しており、使用率は20%から30%の範囲内。
   - **障害発生時**:
     - 13:00頃から使用率が急上昇し始め、最終的に100%に達してその状態が続いている。

### 結論

障害発生時には、特に13:00以降にCPUとディスクの使用率が急激に上昇し、最終的に100%に達していることが確認されました。一方、メモリの使用率には大きな変動が見られず、通常時と同様の範囲内で推移しています。

これらのデータから、障害発生時の主要な問題はCPUとディスクの使用率の急上昇であり、これがシステムのパフォーマンスに重大な影響を与えたと考えられます。メモリの使用率は安定しているため、主な原因ではないと推察されます。
Gemini (1 点 / 3 点)
このグラフから、障害発生時のサーバーメトリクスは通常時と比較して以下の変化が見られます。

* **CPU使用率:** 通常時は30%前後で安定していますが、障害発生時は10時頃から急激に上昇し、その後100%で推移しています。
* **メモリ使用率:** 通常時と障害発生時で大きな変化はありません。
* **ディスク使用率:** 通常時はほぼ0%ですが、障害発生時は10時頃から急激に上昇し、その後90%程度で推移しています。

これらのことから、この障害はCPUとディスクの使用率が急激に上昇したことが原因である可能性が高いと考えられます。
Claude (2 点 / 3 点)
障害発生時の各メトリクスを通常時と比較すると、以下のような特徴が見られます:

1. CPU使用率:
通常時と障害発生時で大きな違いは見られません。両方のグラフで、ほぼ同様のパターンで30-40%台を推移し、時折100%近くまでスパイクしています。

2. メモリ使用率:
ここに最も顕著な違いが現れています。
- 通常時: 約20-25%で安定しています。
- 障害発生時: 12:00頃まで通常時と同様ですが、その後急激に上昇し、約95%まで跳ね上がっています。その後、高い使用率(90-95%程度)を維持しています。

3. ディスク使用率:
両方のグラフでほぼ同じパターンを示しており、約50-55%の範囲で安定しています。障害発生による明確な影響は見られません。

結論として、この障害はメモリ使用率の急激な増加と関連していると考えられます。CPU使用率とディスク使用率には顕著な変化が見られないことから、メモリリークやメモリを大量に消費するプロセスの実行など、メモリに関連する問題が発生した可能性が高いと推測されます。

(3) 障害の原因を特定するために何時のログを確認しますか?

ChatGPT (4 点 / 4 点)
障害の原因を特定するために、次の時間帯のログを確認することをお勧めします:

1. **通常運転時**のピーク時(CPU使用率が急上昇している時):
   - **02:00頃**
   - **17:00頃**

2. **障害発生時**の異常が始まった時点とピークに達する時点:
   - **11:00から14:00の間**(CPU使用率が不安定になり、その後ディスク使用率が急上昇)

これらの時間帯のログを確認することで、何が原因でCPUやディスク使用率が変動しているのかを特定しやすくなります。
Gemini (2 点 / 4 点)
障害が発生したのは10時以降なので、10時以降のCPUとメモリのログを重点的に確認します。特に、CPU使用率が急上昇し、メモリ使用率もそれに伴って上昇しているため、この時間帯のリソース不足を示すエラーログがないかを確認することが重要です。

また、ディスクの使用率は障害発生前後で大きな変化がないため、ディスクに関するログは今回の障害の原因特定においては優先度は低くなります。
Claude (2 点 / 4 点)
障害の原因を特定するために、14:00前後のログを確認するのが適切です。

理由は以下の通りです:

1. 障害発生時のグラフを見ると、14:00頃からメモリ使用率が急激に上昇し始めています。

2. この時間帯からシステムの挙動に大きな変化が見られるため、問題の発生源や原因を特定するための重要な情報が含まれていると考えられます。

3. 14:00直前のログを確認することで、メモリ使用率上昇の引き金となったイベントや操作を特定できる可能性があります。

4. また、14:00以降のログを調べることで、メモリ使用率の急上昇に伴って発生した他の問題や影響を把握できるでしょう。

したがって、14:00前後の時間帯のログを重点的に調査することで、障害の原因特定と問題解決につながる情報を得られる可能性が高いと判断します。

実際の案件でも、精度指標を集計する定量分析と実際のデータを確認する定性分析の両方を行うことが重要です。ベンチマークの結果だけを鵜呑みにせず、自分のユースケースで実際に試す習慣をつけましょう。

 

第 2 問 表やアイコンの読み取り (配点 10)

Slide2.JPG
(1) 表内の各記号の意味は何ですか?
(2) BHHOが「普通」と評価された項目を全て答えてください。
(3) 処理速度とドキュメントの充実度を最重視する場合、選定すべきサービス2つを答えてください。

問題 正答 配点
(1) 赤色:良い、黄色:普通、青色:悪い (各 1 点) 3
(2) 処理速度、学習コスト、ドキュメントの充実度 (過不足 1 つにつき 1 点減点) 3
(3) Akikatana、CyberTori (各 2 点) 4

第 2 問は表の読み取り問題です。サービス比較表の凡例や各項目を読み取り、比較できるかをテストしてみましょう。結果はそれぞれ以下のようになりました。

ChatGPT 3 点:(1) 1 点、(2) 2 点、(3) 0 点

なんと (1) でいきなり間違えてしまいました。 どうやら「赤い顔 = 怒り」という常識に釣られていそうです。他の問題も全然正解できず、意外にも結果は 3 点とボロボロでした。

ChatGPT 回答 (1) を一部抜粋
- 赤い顔(😡):悪い
- 黄色い顔(😊):普通
- 青い顔(😟):良い

Gemini 5 点:(1) 3 点、(2) 0 点、(3) 2 点

ChatGPT が間違えた (1) は何度試しても正解できたのですが、実際に表を読み取らせると出力がかなりバラつくようです。何とか (3) で部分点を獲得できたものの、結果は 5 点という悔しい結果に終わりました。

Gemini 回答 (3) を一部抜粋
処理速度とドキュメントの充実度を最重視する場合、選定すべきサービスは**Cyber Tori**と**EEE-Ninja**です。

Claude 9 点:(1) 3 点、(2) 2 点、(3) 4 点

唯一 (3) の比較問題まで正解できました。(2) の「ドキュメントの充実度」だけは何度試しても見落としてしまうようですが、その他は全て正解し、結果は 9 点と大健闘です。

Claude 回答 (3) を一部抜粋
処理速度とドキュメントの充実度を最重視する場合、選定すべきサービスは以下の2つです:

1. AkiKatana
2. CyberTori

 
表の読み取りは Claude が他に大差をつけて圧勝という結果になりました。本来 ChatGPT や Gemini も表の扱いは得意なはずですが、一般的でないアイコンで表現されて混乱してしまったようです。人間にとっては些細な変化でも、表現を少し変えるだけで挙動が大きく変わってしまうのは興味深いですね。

第 2 問の回答結果をすべて見る

(1) 表内の各記号の意味は何ですか?

ChatGPT (1 点 / 3 点)
表内の各記号の意味は以下の通りです:

- 赤い顔(😡):悪い
- 黄色い顔(😊):普通
- 青い顔(😟):良い

これらの記号は、各項目に対する評価を示しています。
Gemini (3 点 / 3 点)
この表では、以下の記号が使われています。

* **良い:** 😊
* **普通:** 🙂
* **悪い:** 🙁
Claude (3 点 / 3 点)
表の上部に記号の意味が示されています:

- 笑顔の赤い記号 (><) は「良い」を表しています。
- 普通の表情の黄色い記号 (:)) は「普通」を表しています。
- 悲しい表情の青緑色の記号 (:() は「悪い」を表しています。

これらの記号は、各ITサービスの特徴を評価するために使用されています。例えば、「良い」評価は優れたパフォーマンスや特徴を示し、「悪い」評価は改善の余地があることを示しています。

(2) BHHOが「普通」と評価された項目を全て答えてください。

ChatGPT (2 点 / 3 点)
BHHOが「普通」と評価された項目は以下の通りです:

- 処理速度
- サポート
- 学習コスト
- ドキュメントの充実度

これらの項目は黄色い顔の絵文字で示されています。
Gemini (0 点 / 3 点)
- 処理速度
- セキュリティ
- カスタマイズ性
- ドキュメントの充実度
Claude (2 点 / 3 点)
BHHOが「普通」(黄色の顔文字)と評価された項目は以下の2つです:

1. 処理速度
2. 学習コスト

これらの2項目においてBHHOは平均的な評価を受けています。

(3) 処理速度とドキュメントの充実度を最重視する場合、選定すべきサービス2つを答えてください。

ChatGPT (0 点 / 4 点)
処理速度とドキュメントの充実度を最重視する場合、選定すべきサービスは以下の2つです:

1. **BHH0**
2. **DragonMY**

この2つのサービスは、どちらも処理速度とドキュメントの充実度において「普通(黄色の笑顔)」の評価を得ています。
Gemini (2 点 / 4 点)
処理速度とドキュメントの充実度を最重視する場合、選定すべきサービスは**Cyber Tori**と**EEE-Ninja**です。

Cyber Toriは処理速度が良く、ドキュメントの充実度も良いです。EEE-Ninjaは処理速度は普通ですが、ドキュメントの充実度が最も良いです。
Claude (4 点 / 4 点)
処理速度とドキュメントの充実度を最重視する場合、選定すべきサービスは以下の2つです:

1. AkiKatana
2. CyberTori

これらのサービスは、処理速度とドキュメントの充実度の両方で「良い」(赤い笑顔のアイコン)評価を受けています。他のサービスは、これらの2つの項目で同時に「良い」評価を得ていません。

生成 AI に表データを入力する際は Markdown 形式か HTML 形式などの構造化したテキストに変換することが推奨されています。

 

第 3 問 レーダーチャートの読み取り (配点 10)

Slide3.JPG

(1) AI/機械学習に強いメンバTop3を答えてください。
(2) 植田さんのネットワーク、アプリケーション、マネジメントのスコアは何点ですか?
(3) 開発メンバの中で最もインフラ技術全般に詳しいのは誰だと推察できますか?まず思考過程を出力し、結論を出してください。

問題 正答 配点
(1) 宮川、岩崎、高野 (各 1 点、順位誤りは許容) 3
(2) ネットワーク:5、アプリケーション:10、マネジメント:6 (各 1 点) 3
(3) 田島。ネットワーク、OS/ミドルウェア、セキュリティ、クラウド技術のスコアが高いため。(選択、理由各 2 点) 4

第 3 問はレーダーチャートの読み取り問題です。密集したグラフの目盛や大小関係を定性的、定量的に正しく読み取れるかテストしてみましょう。結果はそれぞれ以下のようになりました。

ChatGPT 5 点:(1) 2 点、(2) 1 点、(3) 2 点

総じて回答にバラつきがあるようです。(1) では以下のように高確率で「岩崎」ではなく「田島」を挙げてしまう傾向がありました。何となくグラフが左下に伸びているメンバを選んでいるように見えます。具体的な目盛の数値も殆ど読み取れず、結果は 5 点でした。まだこのレベルのグラフは上手く扱えないようです。

ChatGPT 回答 (1) を一部抜粋
1. 高野
2. 宮川
3. 田島

Gemini 5 点:(1) 2 点、(2) 1 点、(3) 2 点

ChatGPT と同様に回答にバラつきがありました。(1) の問題では「宮川」と「岩崎」までは安定して回答できますが、やはり残りの一人に「田島」や「植田」を挙げてしまいます。目盛の読み取りも上手くできず、結果は ChatGPT と同じく 5 点でした。

Gemini 回答 (2) を一部抜粋
* ネットワーク: 10点
* アプリケーション: 2点
* マネジメント: 6点

Claude 8 点:2 点、(2) 2 点、(3) 4 点

目盛の読み取りは一部失敗してしまったものの、他と比較すると回答のブレが小さく、出力はある程度一貫性があるようです。(3) のインフラ技術に詳しいメンバを選ぶ問題は何度試しても正解できました。目盛りの読み取りも比較的安定しており、ぼんやりとグラフを読み取れているように見えます。結果は 8 点となりました。

Claude 回答 (3) を一部抜粋
インフラ技術全般に最も詳しいのは田島だと推察できます。田島はインフラ関連のほとんどの分野で高いスキルレベルを示しており、特にネットワークとOS/ミドルウェアの分野で突出しています。

 
第 2 問に続き、今回も Claude が一番という結果になりました。

残念ながらどのモデルも目盛を安定して読み取れませんでしたが、特に斜め方向の目盛を読み取るタスクは難易度が高いため、想定の範囲内です。

第 3 問の回答結果をすべて見る

(1) AI/機械学習に強いメンバTop3を答えてください。

ChatGPT (2 点 / 3 点)
レーダーチャートを確認したところ、AI/機械学習に強いメンバーのTop3は以下の通りです:

1. 高野
2. 宮川
3. 田島
Gemini (2 点 / 3 点)
AI/機械学習に強いメンバーTop3は、宮川さん、植田さん、岩崎さんです。
Claude (2 点 / 3 点)
この画像に基づいて、AI/機械学習のスキルが最も高い上位3名のメンバーを選びます:

1. 宮川
2. 田島
3. 高野

これらのメンバーのAI/機械学習の能力が他のメンバーよりも突出して高いことがグラフから読み取れます。特に宮川氏のスコアが最も高く、次いで田島氏と高野氏が続いています。

(2) 植田さんのネットワーク、アプリケーション、マネジメントのスコアは何点ですか?

ChatGPT (1 点 / 3 点)
植田さんのスコアは以下の通りです:

- ネットワーク:7点
- アプリケーション:6点
- マネジメント:6点
Gemini (1 点 / 3 点)
植田さんのスキルシートから、それぞれのスコアは以下の通りです。

* ネットワーク: 10点
* アプリケーション: 2点
* マネジメント: 6点
Claude (2 点 / 3 点)
植田さんのスキルシートを確認すると:

ネットワーク: 5点
アプリケーション: 10点
マネジメント: 2点

となっています。

(3) 開発メンバの中で最もインフラ技術全般に詳しいのは誰だと推察できますか?まず思考過程を出力し、結論を出してください。

ChatGPT (2 点 / 4 点)
インフラ技術全般に関するスキルを考慮する際、「ネットワーク」、「OS/ミドルウェア」、「クラウド技術」、「運用保守」の4つの項目に注目します。この4つの項目で最もスコアが高い人物が、インフラ技術全般に最も詳しいと推察できます。

次に、各メンバーのこれらの4つの項目のスコアを確認します。

1. 植田
2. 宮川
3. 岩崎
4. 田島
5. 高野

それぞれのスコアを確認し、インフラ技術に関する総合スコアを計算します。スコアが最も高い人物がインフラ技術全般に最も詳しいと判断されます。

**植田**
- ネットワーク: 8
- OS/ミドルウェア: 6
- クラウド技術: 7
- 運用保守: 7
- 合計: 28

**宮川**
- ネットワーク: 7
- OS/ミドルウェア: 6
- クラウド技術: 5
- 運用保守: 4
- 合計: 22

**岩崎**
- ネットワーク: 6
- OS/ミドルウェア: 5
- クラウド技術: 6
- 運用保守: 5
- 合計: 22

**田島**
- ネットワーク: 5
- OS/ミドルウェア: 8
- クラウド技術: 6
- 運用保守: 6
- 合計: 25

**高野**
- ネットワーク: 8
- OS/ミドルウェア: 7
- クラウド技術: 8
- 運用保守: 7
- 合計: 30

これらの結果から、最もインフラ技術全般に詳しいのは「高野」であると推察できます。
Gemini (2 点 / 4 点)
思考過程:

1. **インフラ技術の要素を特定:** この図において、インフラ技術に関連すると考えられるのは、「ネットワーク」「運用保守」「OS/ミドルウェア」「クラウド技術」「セキュリティ」「アーキテクチャ」の6項目です。
2. **各メンバーのスキル値の合計を算出:** 各メンバーについて、上記6項目のスキル値を合計します。
3. **合計値が最も高いメンバーを特定:** 合計値が最も高いメンバーが、インフラ技術全般に最も詳しいと推察できます。

結論:

上記の思考過程に基づき、最もインフラ技術全般に詳しいと推察できるのは**植田**さんです。
Claude (4 点 / 4 点)
この質問に答えるため、インフラ技術に関連するスキルを特定し、各メンバーのそれらのスキルを比較分析します。

思考過程:

1. インフラ技術に関連するスキル:
   - ネットワーク
   - OS/ミドルウェア
   - 運用保守
   - クラウド技術
   - セキュリティ
   - アーキテクチャ

2. 各メンバーのこれらのスキルを評価:

   植田: 
   - ネットワーク (5)、OS/ミドルウェア (7)、運用保守 (3)、クラウド技術 (2)、セキュリティ (6)、アーキテクチャ (5)
   - 合計: 28

   宮川:
   - ネットワーク (5)、OS/ミドルウェア (6)、運用保守 (5)、クラウド技術 (6)、セキュリティ (7)、アーキテクチャ (6)
   - 合計: 35

   岩崎:
   - ネットワーク (3)、OS/ミドルウェア (3)、運用保守 (2)、クラウド技術 (2)、セキュリティ (4)、アーキテクチャ (5)
   - 合計: 19

   田島:
   - ネットワーク (9)、OS/ミドルウェア (8)、運用保守 (4)、クラウド技術 (6)、セキュリティ (8)、アーキテクチャ (8)
   - 合計: 43

   高野:
   - ネットワーク (6)、OS/ミドルウェア (7)、運用保守 (8)、クラウド技術 (5)、セキュリティ (5)、アーキテクチャ (7)
   - 合計: 38

3. 分析:
   田島が最も高いスコアを示しており、特にネットワーク、OS/ミドルウェア、セキュリティ、アーキテクチャで高い評価を得ています。高野も運用保守で高いスキルを持っていますが、全体的なスコアは田島より低くなっています。

結論:
インフラ技術全般に最も詳しいのは田島だと推察できます。田島はインフラ関連のほとんどの分野で高いスキルレベルを示しており、特にネットワークとOS/ミドルウェアの分野で突出しています。

(3) の設問に「まず思考過程を出力し」という文言が入っていましたが、これは広義には Step-by-Step と呼ばれるプロンプトテクニックです。生成 AI に回答を出力させる前に一度手順を出力させることで回答精度が安定することが知られています。

 

第 4 問 階層図の読み取り (配点 10)

Slide4.JPG

(1) 貴社体制におけるPM配下の部門を全て答えよ。
(2) 輸送システム開発-アプリ部門のメンバを全て答えてください。
(3) 今月アカウントを申請する必要があるメンバは誰ですか?

問題 正答 配点
(1) システム部門、企画部門、アプリ部門 (各 1 点) 3
(2) 佐々木、榊、北野崎 (各 1 点) 3
(3) 鈴木、加藤、内山、浜野 (各 1 点) 4

第 4 問は階層図の読み取りです。細かい文字で書かれた複雑な体制図からメンバ情報を取得できるかテストしてみましょう。結果はそれぞれ以下のようになりました。

ChatGPT 9 点:(1) 3 点、(2) 3 点、(3) 3 点

正確に情報を取得できています。(3) で今月参画者を列挙する問題では何故か高確率で貴社体制側からも 1 人挙げてしまうようですが、それ以外は難なく正解し、結果は 9 点でした。

ChatGPT 回答 (3) を一部抜粋
今月アカウントを申請する必要があるメンバーは、プロジェクト体制図に赤字で表示されているメンバーです。具体的には以下のメンバーです:

1. 貴社体制の「企画部門」の鈴村
2. 弊社体制の「PMO」の鈴木
3. 弊社体制の「アプリ部門」の加藤
4. 弊社体制の「インフラ部門」の内山
5. 弊社体制の「運用部門」の浜野

Gemini 6 点:(1) 3 点、(2) 3 点、(3) 0 点

ChatGPT と同様に (1) と (2) はクリアできたものの、(3) では何度試しても正しい回答を出せず、結果は 6 点でした。なお、質問を「赤字で書かれた名前を列挙して」と変えても同じような挙動を示したため、どうやら聞き方の問題ではなさそうです。

Gemini 回答 (3) を一部抜粋
今月アカウントを申請する必要があるメンバーは、弊社体制の以下のメンバーです。

* 輸送システム開発:山本、鈴木
* アプリ部門:小林、石田
* インフラ部門:岸

Claude 6 点:(1) 3 点、(2) 3 点、(3) 0 点

Geminiと同様に (3) を誤答し、結果は 6 点でした。赤字の隣にある「吉本」を挙げたり、「浜野」を「渡野」や「近野」と読み間違えたりしました。Gemini と同様に「赤字で書かれた名前を列挙して」と聞いても結果は変わりませんでした。

Claude 回答 () を一部抜粋
今月アカウントを申請する必要があるメンバーは、赤字で表記されている以下の5名です:

1. 橋本 (PMO部門)
2. 加藤 (アプリ部門)
3. 吉本 (アプリ部門)
4. 内山 (インフラ部門)
5. 渡野 (運用部門)

 
今回は ChatGPT がほぼ満点の高い得点を獲得し、Gemini と Claude は 6 点とイマイチな結果でした。Gemini は日本語の文字認識に一番強いイメージがあったので、この結果は個人的に予想外です。ChatGPT は以下のポストのような非常に小さな領域も識別できるため、その「視力の良さ」が功を奏したのかもしれません。

一方、Gemini と Claude は文字サイズが同じでも赤文字だと何故か読み取れませんでした。試しに「浜野」の部分を拡大した画像を与えると両者とも正しく読めたため、Gemini と Claude は文字自体を知らなかったのではなく、単に赤文字が見えなかったと考えられます。

入力画像の解像度によるのか、それとも文字が全体に占める割合によるのかは定かではありませんが、いずれにせよ赤文字だと読み取り精度が下がるようです。

第 4 問の回答結果をすべて見る

(1) 貴社体制におけるPM配下の部門を全て答えよ。

ChatGPT (3 点 / 3 点)
貴社体制におけるPM(清水)の配下には以下の部門があります:

1. システム部門(横田)
2. 企画部門(野原、鈴村)
3. アプリ部門(南川(L)、中村、斎藤、高橋)

以上が貴社体制におけるPM配下の部門です。
Gemini (3 点 / 3 点)
貴社体制におけるPM配下の部門は、以下の3つです。

* システム部門
* 企画部門
* アプリ部門
Claude (3 点 / 3 点)
貴社体制におけるPM配下の部門は以下の通りです:

1. システム部門
2. 企画部門
3. アプリ部門

これらの部門が貴社体制のPM(清水氏)の下に配置されています。

(2) 輸送システム開発-アプリ部門のメンバを全て答えてください。

ChatGPT (3 点 / 3 点)
輸送システム開発のアプリ部門のメンバーは以下の通りです:

- 佐々木 (L)
- 榊
- 北野崎
Gemini (3 点 / 3 点)
佐々木(L)、榊、北野崎です。
Claude (3 点 / 3 点)
輸送システム開発のアプリ部門のメンバーは以下の通りです:

佐々木(L)、榊、北野崎

この3名がこの部門に所属していることが組織図から確認できます。

(3) 今月アカウントを申請する必要があるメンバは誰ですか?

ChatGPT (3 点 / 4 点)
今月アカウントを申請する必要があるメンバーは、プロジェクト体制図に赤字で表示されているメンバーです。具体的には以下のメンバーです:

1. 貴社体制の「企画部門」の鈴村
2. 弊社体制の「PMO」の鈴木
3. 弊社体制の「アプリ部門」の加藤
4. 弊社体制の「インフラ部門」の内山
5. 弊社体制の「運用部門」の浜野

これらのメンバーが今月アカウントを申請する必要があります。
Gemini (0 点 / 4 点)
今月アカウントを申請する必要があるメンバーは、弊社体制の以下のメンバーです。

* 輸送システム開発:山本、鈴木
* アプリ部門:小林、石田
* インフラ部門:岸

これらのメンバー名は赤字で記載されているため、今月参画したことがわかります。したがって、アカウントの申請が必要と考えられます。
Claude (0 点 / 4 点)
今月アカウントを申請する必要があるメンバーは、赤字で表記されている以下の5名です:

1. 橋本 (PMO部門)
2. 加藤 (アプリ部門)
3. 吉本 (アプリ部門)
4. 内山 (インフラ部門)
5. 渡野 (運用部門)

画像の注釈にある「※今月参画者は赤字で表記」という説明に基づいて、これらの赤字で記載されているメンバーが今月新たに参画する人々であり、したがってアカウントの申請が必要になると推測されます。

AI が尤もらしい嘘をつく現象のことを「ハルシネーション」と呼びます。

 

第 5 問 円グラフの読み取り (配点 10)

Slide5.JPG

(1) グラフの色はそれぞれ何の割合を示していますか?
(2) テストOKケースの割合が最も高いシステムはどれですか?
(3) 品質が最も低いシステムはどれだと推測できますか?段階的に思考してください。

問題 正答 配点
(1) 青:テストOK、赤:テストNG、緑:未実施 (各 1 点) 3
(2) 残高照会システム、87% (各 1 点、完答の場合 3 点) 3
(3) 出金システム。テストのNG比率が高いから。(選択、理由各 2 点) 4

第 5 問は円グラフの読み取りです。複数システムのテスト状況を比較し、進捗や品質を評価させてみましょう。(3) では少しひねった意地悪な問題を出しています。結果はそれぞれ以下のようになりました。

ChatGPT 8 点:(1) 3 点、(2) 3 点、(3) 2 点

グラフの数値は正しく読み取れたものの、(3) のひっかけ問題で見事にひっかかってしまい、結果は 8 点でした。(3) の回答で数値までは完璧に読み取れていたため、部分点として 2 点を与えています。

ChatGPT 回答 (3) を一部抜粋
    - 認証システム: 5%
    - 取引処理システム: 22%
    - 残高照会システム: 3%
    - 入金システム: 2%
    - 出金システム: 20%

テストNGの割合が最も高いシステムは「取引処理システム」です。これは、他のシステムと比べてテストに失敗した割合が最も多いことを意味し、品質が最も低いと推測されます。

したがって、品質が最も低いと推測されるシステムは「取引処理システム」です。

Gemini 3 点:(1) 3 点、(2) 0 点、(3) 0 点

(1) は正解できましたが、(2) と (3) は全く答えられず、結果は 3 点とボロボロでした。何度試しても下 2 つのグラフしか言及しないようです。円グラフの個数を聞いてもバラバラの回答を出力することから、各円グラフを正しく認識できていない可能性があります。

Gemini 回答 (3) を一部抜粋
1. **テストNGの割合に着目:** 入金システムと出金システムはテストNGの割合が2%で同じです。
2. **未実施の割合に着目:** 入金システムは未実施の割合が78%、出金システムは75%です。
3. **比較:** 入金システムの方が、出金システムよりも未実施の割合が3%高くなっています。

したがって、**入金システム**が最も品質が低いと推測できます。

Claude 10 点:(1) 3 点、(2) 3 点、(3) 4 点

(3) のひっかけ問題もクリアし、今回ついに初の 10 点満点を達成しました。数値の読み取りも安定しており、文句なしの結果です。

Claude 回答 (3) を一部抜粋
出金システムが最も問題があると考えられます。テストOK率が極めて低く、テストNG率が高く、さらに未実施の割合も非常に高いためです。

したがって、品質が最も低いと推測されるのは出金システムです。このシステムは早急な対応が必要で、テストの実施率を上げ、問題点を特定し改善する必要があります。

 
第 5 問では Claude が 10 点満点を達成し、堂々の 1 位となりました。ChatGPT は (3) のひっかけ問題を落としてしまったものの、円グラフの数値は正しく読み取れているようです。Gemini は意外にも円グラフを正しく認識できず、ダントツの最下位となってしまいました。

第 5 問の回答結果をすべて見る

(1) グラフの色はそれぞれ何の割合を示していますか?

ChatGPT (3 点 / 3 点)
グラフの色はそれぞれ次の割合を示しています:

- **青色 (テストOK)**: テストが成功した割合
- **赤色 (テストNG)**: テストが失敗した割合
- **緑色 (未実施)**: まだテストが実施されていない割合
Gemini (3 点 / 3 点)
このグラフでは、色が3つの割合を示しています。

* **青色:** テストOKの割合
* **赤色:** テストNGの割合
* **緑色:** 未実施の割合
Claude (3 点 / 3 点)
グラフの色は以下の割合を示しています:

- 青色: テストOK
- 赤色: テストNG 
- 緑色: 未実施

これらの色は、各システムのテスト進捗状況を表しています。青色の「テストOK」は正常に完了したテストの割合、赤色の「テストNG」は問題が見つかったテストの割合、緑色の「未実施」はまだテストが行われていない部分の割合を示しています。

(2) テストOKケースの割合が最も高いシステムはどれですか?

ChatGPT (3 点 / 3 点)
テストOKケースの割合が最も高いシステムは、「残高照会システム」で、テストOKの割合は87%です。
Gemini (0 点 / 3 点)
出金システムです。出金システムはテストOKが20%で、他のシステムよりも高い割合です。
Claude (3 点 / 3 点)
テストOKケースの割合が最も高いシステムは残高照会システムです。

残高照会システムのテストOK率は87%で、他のシステムと比較して最も高くなっています。

他のシステムのテストOK率は以下の通りです:
- 認証システム: 85%
- 取引処理システム: 74%
- 入金システム: 20%
- 出金システム: 5%

したがって、残高照会システムの87%が最も高いテストOK率となっています。

(3) 品質が最も低いシステムはどれだと推測できますか?段階的に思考してください。

ChatGPT (2 点 / 4 点)
品質が最も低いシステムを推測するために、各システムの「テストNG」の割合を確認する必要があります。以下の手順で段階的に思考していきます。

1. **各システムのテストNG割合を確認する**:
    - 認証システム: 5%
    - 取引処理システム: 22%
    - 残高照会システム: 3%
    - 入金システム: 2%
    - 出金システム: 20%

2. **テストNG割合の比較**:
    - 取引処理システムが22%で最も高い
    - 次に高いのは出金システムで20%

3. **推論**:
    - テストNGの割合が最も高いシステムは「取引処理システム」です。これは、他のシステムと比べてテストに失敗した割合が最も多いことを意味し、品質が最も低いと推測されます。

したがって、品質が最も低いと推測されるシステムは「取引処理システム」です。

Gemini (0 点 / 4 点)
この図は、各システムのテスト進捗状況を示しています。テストの進捗状況は、テストOK、テストNG、未実施の3つの要素で構成されています。品質の低さは、テストNGの割合が高いこと、または未実施の割合が高いことから推測できます。

1. **テストNGの割合に着目:** 入金システムと出金システムはテストNGの割合が2%で同じです。
2. **未実施の割合に着目:** 入金システムは未実施の割合が78%、出金システムは75%です。
3. **比較:** 入金システムの方が、出金システムよりも未実施の割合が3%高くなっています。

したがって、**入金システム**が最も品質が低いと推測できます。
Claude (4 点 / 4 点)
この質問に答えるために、システムごとのテスト結果を段階的に分析していきましょう。

1. まず、各システムのテスト状況を確認します:

   認証システム: テストOK 85%, テストNG 5%, 未実施 10%
   取引処理システム: テストOK 74%, テストNG 22%, 未実施 4%
   残高照会システム: テストOK 87%, テストNG 3%, 未実施 10%
   入金システム: テストOK 20%, テストNG 2%, 未実施 78%
   出金システム: テストOK 5%, テストNG 20%, 未実施 75%

2. 品質の低さを判断する基準を考えます:
   - テストNGの割合が高いこと
   - 未実施の割合が高いこと
   - テストOKの割合が低いこと

3. これらの基準に基づいて各システムを評価します:

   - 出金システム: テストOK率が最も低く(5%)、テストNG率が高い(20%)、未実施率も非常に高い(75%)
   - 入金システム: テストOK率が低く(20%)、未実施率が最も高い(78%)
   - 取引処理システム: テストNG率が比較的高い(22%)
   - 認証システムと残高照会システム: 比較的良好な結果

4. 総合的に判断すると:
   出金システムが最も問題があると考えられます。テストOK率が極めて低く、テストNG率が高く、さらに未実施の割合も非常に高いためです。

したがって、品質が最も低いと推測されるのは出金システムです。このシステムは早急な対応が必要で、テストの実施率を上げ、問題点を特定し改善する必要があります。

ChatGPT に思考過程の道筋やサンプルを与えると正解できました。このようなプロンプトテクニックをそれぞれ Chain-of-ThoughtFew-Shot Prompting と呼びます。

 

第 6 問 フローチャートの読み取り (配点 10)

Slide6.JPG

(1) 未スキャンあり、未スキャンなし、入荷予定変更の分岐直後に実行される処理をそれぞれ答えてください。
(2) 確定処理でエラーが発生した場合のみ実行されうる処理を全て答えてください。
(3) 入荷処理フローでエラーが発生しなかった場合に実行される処理を全て答えてください。

問題 正答 配点
(1) 不足商品の確認、確定処理、入荷依頼変更 (各 1 点) 3
(2) 不足商品の確認、緊急入荷依頼入荷紐づけ変更、入荷依頼変更 (各 1 点) 3
(3) 入荷依頼番号スキャン、商品スキャン、入荷予定突合、未スキャン商品の確認、確定処理 (1 つ間違える毎に 1 点減点) 4

第 6 問はフローチャートの読み取り問題です。システムの処理フロー図から処理順序や異常系を抽出できるかテストしてみましょう。結果はそれぞれ以下のようになりました。

ChatGPT 4 点:(1) 1 点、(2) 0 点、(3) 3 点

総じて出力に一貫性が見られず、結果は 4 点とボロボロでした。(3) では何度試しても「未スキャン商品の確認」だけを見落としてしまいました。確かにこれは "処理" ではないという解釈もできますが、特に説明も無かったので 1 点減点としました。

ChatGPT 回答 (1) を一部抜粋
1. **未スキャンあり**の分岐直後に実行される処理:
   - 確定処理

2. **未スキャンなし**の分岐直後に実行される処理:
   - 不整合商品の再スキャン

3. **入荷予定変更**の分岐直後に実行される処理:
   - 入荷依頼変更

Gemini 4 点:(1) 2 点、(2) 0 点、(3) 2 点

ChatGPT 同様に殆ど読み取れておらず、結果は 5 点でした。(3) では比較的正確な回答を出せましたが、それ以外の結果を見ても本当にフロー図を読み取れているのかは疑問です。

Gemini 回答 (2) を一部抜粋
確定処理でエラーが発生した場合のみ実行されうる処理は「不整合商品の再スキャン」です。
 
確定処理でエラーが発生し、再スキャンしても不整合が解消されない場合、処理はそこで終了します。
 
確定処理でエラーが発生せず、再スキャンも不要な場合、そのまま入荷処理は終了します。

Claude 7 点:(1) 1 点、(2) 2 点、(3) 4 点

唯一 (3) を安定して正解できたものの、ChatGPT や Gemini と同様に簡単な問題も間違えてしまい、結果は 7 点でした。(2) でも部分的に正しく回答できていることから、他モデルよりも要素間の繋がりを読み取れていそうです。ただし、処理内容のテキスト情報から関係性を予想して偶然正解できただけの可能性もあります。

Claude 回答 (3) を一部抜粋
入荷処理フローでエラーが発生しなかった場合に実行される処理は以下の通りです:

1. 入荷依頼番号スキャン
2. 商品スキャン
3. 入荷予定突合
4. 未スキャン商品の確認
5. 確定処理

 
今回はどのモデルも満足できる結果ではありませんでしたが、これは想定の範囲内です。

そもそも生成 AI はフローチャートの読み取りが苦手です。
フロー中の各ノードまでは正しく読み取れるのですが、矢印の繋がりや方向など、要素間の関係性は最先端のモデルでも簡単に間違えます。典型的なフローチャートは下方向や右方向に進むことが多いためか、特に上方向や左方向の矢印を間違えやすい印象です。(逆に下方向や右方向に単調に進むフローは偶然正解することも多々あります)

第 6 問の回答結果をすべて見る

(1) 未スキャンあり、未スキャンなし、入荷予定変更の分岐直後に実行される処理をそれぞれ答えてください。

ChatGPT (1 点 / 3 点)
画像のフローチャートに基づいて、以下の情報を提供します。

1. **未スキャンあり**の分岐直後に実行される処理:
   - 確定処理

2. **未スキャンなし**の分岐直後に実行される処理:
   - 不整合商品の再スキャン

3. **入荷予定変更**の分岐直後に実行される処理:
   - 入荷依頼変更

これらの分岐により、各処理が適切に行われます。
Gemini (2 点 / 3 点)
* **未スキャンあり:** 不整合商品の再スキャン
* **未スキャンなし:** 確定処理
* **入荷予定変更:** 入荷依頼変更
Claude (1 点 / 3 点)
各分岐直後の処理は以下の通りです:

1. 未スキャンあり:
「未スキャン商品の確認」処理に進みます。

2. 未スキャンなし:
「確定処理」に進みます。

3. 入荷予定変更:
「不足商品の確認」処理に進みます。

これらの処理は、「未スキャン商品の確認」ステップから分岐した直後に実行される処理を示しています。フロー図では、各分岐の矢印が指し示す次のステップがそれぞれの処理となっています。

(2) 確定処理でエラーが発生した場合のみ実行されうる処理を全て答えてください。

ChatGPT (0 点 / 3 点)
確定処理でエラーが発生した場合にのみ実行されうる処理は以下の通りです。

1. 不整合商品の再スキャン
2. 入荷依頼番号再発行処理
3. 入荷予定不整合原因調査
4. 返品登録処理

これらの処理は、確定処理でエラーが発生した場合にのみ進められます。
Gemini (0 点 / 3 点)
確定処理でエラーが発生した場合のみ実行されうる処理は「不整合商品の再スキャン」です。
 
確定処理でエラーが発生し、再スキャンしても不整合が解消されない場合、処理はそこで終了します。
 
確定処理でエラーが発生せず、再スキャンも不要な場合、そのまま入荷処理は終了します。
Claude (2 点 / 3 点)
確定処理でエラーが発生した場合に実行される可能性のある処理は以下の2つです:

1. 不足商品の確認
2. 入荷依頼変更

フロー図では、確定処理から赤い"Error"の矢印が「不足商品の確認」に向かっています。そこから「入荷依頼変更」へのパスがあります。

これらの処理は、確定処理でエラーが発生した場合にのみ実行される可能性があるステップです。エラーが発生しなければ、確定処理から直接"End"に進むことになります。

(3) 入荷処理フローでエラーが発生しなかった場合に実行される処理を全て答えてください。

ChatGPT (3 点 / 4 点)
入荷処理フローでエラーが発生しなかった場合に実行される処理は以下の通りです:

1. 入荷依頼番号スキャン
2. 商品スキャン
3. 入荷予定突合
4. 確定処理

以上が、エラーが発生しなかった場合の処理フローです。
Gemini (2 点 / 4 点)
このフロー図では、エラーが発生しなかった場合に実行される処理は、以下の通りです。

1. **入荷依頼番号スキャン:** 入荷処理を開始するために、入荷依頼番号をスキャンします。
2. **商品スキャン:** 入荷する商品をスキャンし、商品情報を読み取ります。
3. **入荷予定突合:** スキャンした商品情報と、事前に登録された入荷予定の情報とを照合します。
4. **不足商品の確認:** 入荷予定と実際の入荷商品の間に不足がないかを確認します。
5. **確定処理:** 入荷処理が完了したことを確定します。
6. **入荷依頼変更:** 必要に応じて、入荷依頼の内容を変更します。

このフロー図では、上記6つの処理が正常に完了すると、処理が終了します。
Claude (4 点 / 4 点)
入荷処理フローでエラーが発生しなかった場合に実行される処理は以下の通りです:

1. 入荷依頼番号スキャン
2. 商品スキャン
3. 入荷予定突合
4. 未スキャン商品の確認
5. 確定処理

これらの処理は、フロー図の中でエラー(赤い矢印)が発生せずに進む場合のメインパスを辿っています。エラーが発生しなければ、これらの手順を経て処理が「End」に到達します。

フローチャートのように、要素間の順序性や関係性を与えたい場合は Mermaid 記法などの構造化されたテキスト形式で入力しましょう。

 

第 7 問 コンボグラフの読み取り (配点 10)

Slide7.JPG

(1) 2024年3月における実績工数の数値を読み取ってください。
(2) 2024年の累積工数を答えてください。
(3) 月別工数が最も減少したのは何月ですか?工数はどの程度減少しましたか?

問題 正答 配点
(1) 160人月 (数値が 10 ずれる毎に 1 点減点) 3
(2) 1004人月 3
(3) 2024年5月、70人月の減少。(各 2 点) 4

第 7 問はコンボグラフの問題です。重なっている複数タイプのグラフから正しい情報を抽出できるかテストしてみましょう。結果はそれぞれ以下のようになりました。

ChatGPT 7 点:(1) 2 点、(2) 3 点、(3) 2 点

結果は 7 点と決して悪くはありませんが、全般的に目盛に書かれた数字をそのまま回答する傾向があるようです。そのため (1) や (3) で少し得点を取りこぼしてしまいました。

ChatGPT 回答 (1) を一部抜粋
2024年3月における実績工数は約150人月です。

Gemini 6 点:(1) 3 点、(2) 3 点、(3) 0 点

(1) では 160 人月と高確率で回答できたものの、(3) では毎回バラバラの回答を出力してしまい、グラフの読み取りは不安定なようです。結果は 6 点と最下位でした。

Gemini 回答 (3) を一部抜粋
月別工数が最も減少したのは11月です。10月の工数が約50人月だったのに対し、11月は約10人月と、40人月減少しました。

Claude 10 点:(1) 3 点、(2) 3 点、(3) 4 点

(3) の計算含め目盛を完璧に読み取れており、第 5 問に引き続き 10 点満点を達成しました。
(1) では 161 人月、162 人月と決め打ちで解答することもあるようですが、ChatGPT の 150 人月という回答に 2 点与えたので大目に見ましょう。

Claude 回答 (3) を一部抜粋
2024年4月の工数実績は約115人月でしたが、2024年5月には約45人月に減少しています。つまり、約70人月の減少が見られます。

 
今回は各モデルできれいに傾向が分かれました。ChatGPT はグラフの概形を理解できていましたが、数値の読み取りはやや大雑把で目盛にかかれた値をそのまま回答する傾向があります。これは無難な回答を出力するように学習した結果かもしれません。Gemini は (3) の回答にかなりバラつきがあり、グラフを正しく読めているのか若干怪しいです。Claude は数値を決め打ちで回答してしまいますが、グラフの形状や目盛を最も正確に読み取れました。

第 7 問の回答結果をすべて見る

(1) 2024年3月における実績工数の数値を読み取ってください。

ChatGPT (2 点 / 3 点)
2024年3月における実績工数は約150人月です。
Gemini (3 点 / 3 点)
2024年3月における実績工数は160人月です。
Claude (3 点 / 3 点)
2024年3月の実績工数は160人月です。グラフの青い棒で表されている2024年3月の値を見ると、およそ160人月の高さになっています。

(2) 2024年の累積工数を答えてください。

ChatGPT (3 点 / 3 点)
2024年の累積工数はグラフの最後の値である**1004人月**です。
Gemini (3 点 / 3 点)
2024年7月時点の累積工数は1004人月です。
Claude (3 点 / 3 点)
2024年の累積工数は1004人月です。

グラフの緑色の線が累積工数を表しており、2024年12月時点でその値が1004人月に達していることが読み取れます。

(3) 月別工数が最も減少したのは何月ですか?工数はどの程度減少しましたか?

ChatGPT (2 点 / 4 点)
月別工数が最も減少したのは2024年4月から2024年5月です。

工数は2024年4月の約150人月から2024年5月の約50人月に減少し、およそ100人月の減少がありました。
Gemini (0 点 / 4 点)
月別工数が最も減少したのは11月です。10月の工数が約50人月だったのに対し、11月は約10人月と、40人月減少しました。
Claude (4 点 / 4 点)
この図表から、月別工数が最も減少したのは2024年5月です。

2024年4月の工数実績は約115人月でしたが、2024年5月には約45人月に減少しています。つまり、約70人月の減少が見られます。

これは年初から見て最も大きな月次の減少幅となっています。4月から5月にかけての工数の落ち込みが特に顕著であることがわかります。

棒グラフの数をさらに増やすと、どのモデルも細かい凹凸を認識できず全体的な傾向 (増加 or 減少) に基づいた回答しかできなくなるようです。

 

第 8 問 ガントチャートの読み取り (配点 10)

Slide8.JPG

(1) 注文マスタのタスクを担当しているのは誰ですか?
(2) 現在作業中のタスクを全て答えてください。
(3) 本日時点で予定より完了が遅延しているタスクはどれですか?進捗率に注意して段階的に思考してください。

問題 正答 配点
(1) 谷田、鈴岡、鬼塚 (各 1 点) 3
(2) 検索機能の実装、カート機能の実装、決済システムの実装 (各 1 点) 3
(3) 商品検索機能の実装、決済システムの実装、レビュー機能の設計 (各 1 点、完答で 4 点) 4

第 8 問は皆さんが大好きな WBS の問題です。第 2 問と少し似ていますが、WBS (ガントチャート) 上に書かれた予定と実績の情報を正しく解釈できるかテストしてみましょう。結果はそれぞれ以下のようになりました。

ChatGPT 8 点:(1) 3 点、(2) 3 点、(3) 2 点

第 2 問よりも細かい表であるにも関わらず、今回はかなり正確に読み取れています。(3) の思考過程では進捗率が「未着手」のタスクにも目をつけたところまでは良かったのですが、惜しくも 1 つ間違えてしまい、結果は 8 点でした。

ChatGPT 回答 (3) を一部抜粋
1. 商品検索機能の実装(担当: 若松)
2. カート機能の実装(担当: 旭)
3. 決済システムの実装(担当: 鈴岡)

これらのタスクは、進捗が「作業中」または「未着手」となっており、実績のバーが予定のバーよりも右に位置しています。

Gemini 8 点:(1) 3 点、(2) 3 点、(3) 2 点

ChatGPT と全く同じ回答および得点となりました。同じく「未着手」のタスクにも着目しましたが、やはり「レビュー機能の設計部分」を取りこぼしてしまいました。

Gemini 回答 (3) を一部抜粋
* **商品検索機能の実装**
* **カート機能の実装**
* **決済システムの実装**

の3つです。

Claude 8 点:(1) 3 点、(2) 3 点、(3) 2 点

ChatGPT、Gemini と全く同じ回答でした。ユーザー登録機能を「予定より遅れているが完了」と説明できた点は素晴らしいですが、完璧に読み取れているわけではなさそうです。進捗率が「未着手」のタスクも見落としてしまいました。

Claude 回答 (3) を一部抜粋
   a. 注文一覧画面の設計・実装: 完了済み
   b. 注文一覧画面の実装: 完了済み
   c. ユーザ登録機能の設計: 完了済み
   d. ユーザ登録機能の実装: 予定より遅れているが完了
   e. ログイン機能の設計・実装: 完了済み
   f. 商品検索機能の設計: 完了済み
   g. 商品検索機能の実装: 予定より大幅に遅れ、まだ作業中
   h. カート機能の設計: 完了済み
   i. カート機能の実装: 予定より遅れ、まだ作業中
   j. 決済システムの設計: 完了済み
   k. 決済システムの実装: 予定より遅れ、まだ作業中
   l. 注文マスタ画面の設計・実装: 完了済み
   m. 注文マスタデータ移行: 完了済み

5. 上記の分析から、予定より完了が遅延しているタスクは以下の3つです:
   - 商品検索機能の実装(若松担当、作業中)
   - カート機能の実装(旭担当、作業中)
   - 決済システムの実装(鈴岡担当、作業中)

 
第 2 問の結果とは対照的に、今回はどのモデルも正確に表構造を読み取れました。若干ですが右側のバーについても理解できていそうです。ガントチャートは他のグラフタイプと比べてあまりメジャーではないはずですが、予想以上の出来でした。

第 8 問の回答結果をすべて見る

(1) 注文マスタのタスクを担当しているのは誰ですか?

ChatGPT (3 点 / 3 点)
注文マスタのタスクを担当しているのは、タスク名「注文マスタ画面の設計」と「注文マスタ画面の実装」を担当している谷田さんと鈴岡さん、タスク名「注文マスタデータ移行」を担当している鬼塚さんです。
Gemini (3 点 / 3 点)
注文マスタ画面の設計は谷田さん、注文マスタ画面の実装は鈴岡さん、注文マスタデータ移行は鬼塚さんが担当しています。
Claude (3 点 / 3 点)
注文マスタに関連するタスクを担当しているのは以下の通りです:

1. 注文マスタ画面の設計: 谷田
2. 注文マスタ画面の実装: 鈴岡
3. 注文マスタデータ移行: 鬼塚

これらの3つのタスクは、それぞれ異なる担当者が割り当てられています。

(2) 現在作業中のタスクを全て答えてください。

ChatGPT (3 点 / 3 点)
現在作業中のタスクは以下の通りです:

1. 商品検索機能の実装 - 担当:若松
2. カート機能の実装 - 担当:旭
3. 決済システムの実装 - 担当:鈴岡

これらのタスクは、進捗状況が「作業中」と表示されています。
Gemini (3 点 / 3 点)
現在作業中のタスクは以下の3つです。

* 商品検索機能の実装
* カート機能の実装
* 決済システムの実装
Claude (3 点 / 3 点)
現在作業中のタスクは以下の3つです:

1. 商品検索機能の実装 (担当: 若松)
2. カート機能の実装 (担当: 旭)
3. 決済システムの実装 (担当: 鈴岡)

これらのタスクは、進捗率が「作業中」と表示されており、ガントチャート上で現在日付(7/24)を示す赤い点線を越えて継続していることから、現在進行中であることがわかります。

(3) 本日時点で予定より完了が遅延しているタスクはどれですか?進捗率に注意して段階的に思考してください。

ChatGPT (2 点 / 4 点)
本日時点(7月24日)で予定より完了が遅延しているタスクを確認するために、進捗状況を確認します。進捗が「完了」になっていないタスクの中で、実績が予定よりも右側にあるものを特定します。

以下は本日時点で遅延しているタスクです:

1. 商品検索機能の実装(担当: 若松)
2. カート機能の実装(担当: 旭)
3. 決済システムの実装(担当: 鈴岡)

これらのタスクは、進捗が「作業中」または「未着手」となっており、実績のバーが予定のバーよりも右に位置しています。

これらのタスクが現在遅延しています。
Gemini (2 点 / 4 点)
1. **実績と予定の比較:** まず、各タスクの実績と予定を比較します。実績のバーが予定のバーよりも短い場合、そのタスクは遅延している可能性があります。
2. **7/24時点での遅延タスク特定:** 本日7/24時点では、「商品検索機能の実装」「カート機能の実装」「決済システムの実装」の3つのタスクの実績バーが予定よりも短いため、これらが遅延しているタスクだと考えられます。
3. **その他未完了タスクの確認:** また、「レビュー機能の設計」「レビュー機能の実装」「レビュー機能の追加」の3つのタスクは未着手の状態であり、現時点では遅延しているとは言えませんが、今後のスケジュールに影響を与える可能性があります。

したがって、現時点で完了が遅延しているタスクは、

* **商品検索機能の実装**
* **カート機能の実装**
* **決済システムの実装**

の3つです。
Claude (2 点 / 4 点)
この問題を段階的に分析していきましょう:

1. まず、本日の日付を確認します。
   本日は7/24であることが画像中に示されています。

2. 次に、7/24時点で完了しているべきタスクを特定します。
   7/24より前に終わる予定のタスクすべてが、この時点で完了しているべきです。

3. それらのタスクの中で、実際の進捗が予定より遅れているものを探します。

4. 各タスクを順番に確認していきます:

   a. 注文一覧画面の設計・実装: 完了済み
   b. 注文一覧画面の実装: 完了済み
   c. ユーザ登録機能の設計: 完了済み
   d. ユーザ登録機能の実装: 予定より遅れているが完了
   e. ログイン機能の設計・実装: 完了済み
   f. 商品検索機能の設計: 完了済み
   g. 商品検索機能の実装: 予定より大幅に遅れ、まだ作業中
   h. カート機能の設計: 完了済み
   i. カート機能の実装: 予定より遅れ、まだ作業中
   j. 決済システムの設計: 完了済み
   k. 決済システムの実装: 予定より遅れ、まだ作業中
   l. 注文マスタ画面の設計・実装: 完了済み
   m. 注文マスタデータ移行: 完了済み

5. 上記の分析から、予定より完了が遅延しているタスクは以下の3つです:
   - 商品検索機能の実装(若松担当、作業中)
   - カート機能の実装(旭担当、作業中)
   - 決済システムの実装(鈴岡担当、作業中)

したがって、本日7/24時点で予定より完了が遅延しているタスクは、商品検索機能の実装、カート機能の実装、決済システムの実装の3つです。

 

第 9 問 画面レイアウトの読み取り (配点 10)

Slide9.JPG

(1) Top画面のキャッチコピーには何と書かれていますか?
(2) Top画面にはどんな種類のコンポーネントがありますか?全て挙げてください。
(3) この会社の郵便番号と住所を答えてください。

問題 正答 配点
(1) 想像できない未来を創造する 3
(2) ボタン、メイン画面、フッター (各 1 点) 3
(3) 〒150-7825 東京都渋谷区山存微町3-2-9 (各 2 点) 4

第 9 問は画面レイアウトの読み取り問題です。企業 HP の Top 画面イメージから情報を抽出できるかテストしてみましょう。結果は以下のようになりました。

ChatGPT 8 点:(1) 3 点、(2) 3 点、(3) 2 点

(3) の住所だけ正しく読み取れず、結果は 8 点でした。視力の良さに定評がある ChatGPT もここまで文字サイズが小さいと似ている漢字に間違えてしまうようです。ちなみに、住所を拡大した画像は正しく読み取れたことから、文字自体を知らなかったわけではありません。

ChatGPT 回答 (3) を一部抜粋
この会社の郵便番号と住所は以下の通りです:

〒150-7825 東京都渋谷区山子僧町3-2-9

Gemini 10 点:(1) 3 点、(2) 3 点、(3) 4 点

全ての問題に正解し、10 点満点を達成しました。(3) では非常に小さい住所の文字列も正確に抽出できており、文句なしの結果です。

Gemini 回答 (3) を一部抜粋
郵便番号: 〒150-7825
住所: 東京都渋谷区山存微町3-2-9

Claude 8 点:(1) 3 点、(2) 3 点、(3) 2 点

ChatGPT と同様に (3) の住所だけ正しく読み取れず、結果は 8 点となりました。ここまで満遍なく得点できた Claude でもこの文字サイズは扱えないようです。住所を拡大した画像は正しく読み取れたため、Claude も文字自体を知らなくて間違えたわけではなさそうです。

Claude 回答 (3) を一部抜粋
この会社の郵便番号と住所は以下の通りです:

郵便番号: 〒150-7825
住所: 東京都渋谷区山手徹町3-2-9

 
今回も各モデル高得点を取得できました。一部常識が必要な問題も難なくクリアし、生成 AI の知識量を改めて思い知らされました。

唯一 Gemini が満点を取得し、日本語の文字認識に関しては流石といったところです。ちなみに住所の部分だけ赤字に変えて Gemini に同じ質問をすると間違えてしまったことから、どうやら文字の色で認識精度が変わるというのは間違いなさそうです。

第 9 問の回答結果をすべて見る

(1) Top画面のキャッチコピーには何と書かれていますか?

ChatGPT (3 点 / 3 点)
画像のキャッチコピーには「想像できない未来を創造する」と書かれています。
Gemini (3 点 / 3 点)
「想像できない未来を創造する」と書かれています。
Claude (3 点 / 3 点)
Top画面のキャッチコピーには「想像できない未来を創造する」と書かれています。

(2) Top画面にはどんな種類のコンポーネントがありますか?全て挙げてください。

ChatGPT (3 点 / 3 点)
Top画面には以下のコンポーネントがあります:

1. **ヘッダー**
   - 「TOP画面のイメージ」というテキスト

2. **ナビゲーションバー**
   - 会社概要
   - サービス
   - 採用情報
   - アクセス
   - お問い合わせ

3. **メインコンテンツエリア**
   - 大きな画像(都市の風景)
   - 画像の上に「想像できない未来を創造する」というテキスト

4. **フッター**
   - 会社情報(住所、電話番号、メールアドレス)
   - よくある質問
   - プライバシー
   - 公式ブログ
   - IR情報
   - 利用規約
   - 製品カタログ
   - サイトマップ
   - リリース情報

これらがTOP画面に含まれている主要なコンポーネントです。
Gemini (3 点 / 3 点)
このTOP画面には以下の種類のコンポーネントがあります。

1. **ナビゲーションメニュー:**
   - 会社概要
   - サービス
   - 採用情報
   - アクセス
   - お問い合わせ

2. **メインイメージ:**
   - 都市風景の写真
   - キャッチフレーズ「想像できない未来を創造する」

3. **会社情報:**
   - 会社名
   - 住所
   - 電話番号
   - メールアドレス

4. **フッターメニュー:**
   - よくある質問
   - 公式ブログ
   - 利用規約
   - サイトマップ
   - プライバシー
   - IR情報
   - 製品カタログ
   - リリース情報
Claude (3 点 / 3 点)
TOP画面には以下のコンポーネントがあります:

1. ヘッダーメニュー:
   - 会社概要
   - サービス
   - 採用情報
   - アクセス
   - お問い合わせ

2. メイン画像:
   - 未来的な都市の景観を示す画像
   - 画像に重ねて「想像できない未来を創造する」というテキスト

3. フッター:
   - 会社情報(住所、電話番号、メールアドレス)
   - よくある質問
   - 公式ブログ
   - 利用規約
   - サイトマップ
   - プライバシー
   - IR情報
   - 製品カタログ
   - リリース情報

4. タイトル:
   「TOP画面のイメージ」というテキスト

これらの要素が組み合わさって、企業のウェブサイトのトップページを構成しています。

(3) この会社の郵便番号と住所を答えてください。

ChatGPT (2 点 / 4 点)
この会社の郵便番号と住所は以下の通りです:

〒150-7825 東京都渋谷区山子僧町3-2-9
Gemini (4 点 / 4 点)
郵便番号: 〒150-7825
住所: 東京都渋谷区山存微町3-2-9
Claude (2 点 / 4 点)
この会社の郵便番号と住所は以下の通りです:

郵便番号: 〒150-7825
住所: 東京都渋谷区山手徹町3-2-9

生成 AI に画面イメージを与えてコンポーネントを正しく識別できない場合、画面レイアウトが一般的でない (直感的でない) というチェックができそうです。

 

第 10 問 誤字脱字チェック (配点 10)

Slide10.JPG

画像中に含まれるテキストをそのまま出力してください。次に、誤字の可能性がある個所を全て挙げてください。

問題 正答 配点
- ①タイトル 2 つ目の "Sler" の 2 文字目が小文字の L になっている。大文字の I が正しい。②競争に "絶える" は "耐える" が正しい。③ "勤務時間" が "勤務時開" になっている。④ "デザリング" は "テザリング" が正しい。⑤ "おねがいします" が "おねぎあします" になっている。(各 2 点) 10

最後はおまけ問題です。5 個の間違いが含まれるテキストの画像を読ませて、生成 AI の注意力をテストしてみましょう。結果は以下のようになりました。

ChatGPT:6 点

「絶える」「デザリング」「おねぎあします」の間違いを検出できました。間違いをリストアップさせると「おねぎあします」しか挙げない傾向がありますが、詳細を聞くと残り 2 つも言及できたので許容とします。フォントサイズが大きな「勤務時開」は何度試しても指摘できませんでした。

ChatGPT 回答 を一部抜粋
SIerのSIerによるSIerのためのシステム

コンセプトは管理業務の効率化
・激しい競争に絶えるための取り組み
・生成AIを積極的に導入し、業務を効率化

勤務時間の入力を自動化
・スマートフォンのデザリングは使用不可
・今年7月から新システムの導入を開始

ご協力よろしくおねぎあします。

Gemini:6 点

ChatGPT と同様に「絶える」「デザリング」「おねぎあします」の間違いを検出できました。Gemini はリストアップも安定しています。ただし、やはり「勤務時開」は見落としてしまうようです。

Gemini 回答 を一部抜粋
* 「絶える」は「耐える」かもしれません。
* 「デザリング」は「テザリング」かもしれません。
* 「おねぎあします」は「お願いします」かもしれません。

Claude:6 点

唯一「勤務時開」を検出できましたが、逆に「絶える」を見落としてしまいました。ピンポイントで質問すると「耐える」に変更することを勧めてくれたものの、それでも間違いとまでは断言できませんでした。判定が難しい所ですが、第 7 問で少し大目に見た分、今回は不正解とします。

Claude 回答 を一部抜粋
1. "勤務時開" - これは "勤務時間" の誤字である可能性が高いです。

2. "デザリング" - これは "テザリング" の誤字である可能性が高いです。

3. "おねぎあします" - これは "おねがいします" の誤字である可能性が高いです。

 
各モデル 6 点とスコアに差は出ませんでしたが、文字サイズが大きな「勤務時開」という間違いを指摘できたのは意外にも Claude のみでした。生成 AI は自然な文章を生成するのが得意な反面、気を利かせて勝手に補完してしまう傾向がありそうです。また、どのモデルも残念なことに SIer (エスアイヤー) を Sler (スラー) と間違えてしまうことがあるようです。

第 10 問の回答結果をすべて見る

画像中に含まれるテキストをそのまま出力してください。次に、誤字の可能性がある個所を全て挙げてください。

ChatGPT (6 点 / 10 点)
画像中のテキストは以下の通りです:

‘‘‘
SIerのSIerによるSIerのためのシステム

コンセプトは管理業務の効率化
・激しい競争に絶えるための取り組み
・生成AIを積極的に導入し、業務を効率化

勤務時間の入力を自動化
・スマートフォンのデザリングは使用不可
・今年7月から新システムの導入を開始

ご協力よろしくおねぎあします。
‘‘‘

誤字の可能性がある個所:
1. 「ご協力よろしくおねぎあします。」は「ご協力よろしくお願いします。」が正しいと思われます。
Gemini (6 点 / 10 点)
SIerのSIerによるSIerのためのシステム

コンセプトは管理業務の効率化
・激しい競争に絶えるための取り組み
・生成AIを積極的に導入し、業務を効率化

勤務時間の入力を自動化
・スマートフォンのデザリングは使用不可
・今年7月から新システムの導入を開始

ご協力よろしくお願いいたします。

誤字の可能性がある箇所:

* 「絶える」は「耐える」かもしれません。
* 「デザリング」は「テザリング」かもしれません。
* 「おねぎあします」は「お願いします」かもしれません。
Claude (6 点 / 10 点)
まず、画像中のテキストを出力します:

SlerのSlerによるSlerのためのシステム

コンセプトは管理業務の効率化

・激しい競争に絶えるための取り組み
・生成AIを積極的に導入し、業務を効率化

勤務時開の入力を自動化

・スマートフォンのデザリングは使用不可
・今年7月から新システムの導入を開始

ご協力よろしくおねぎあします。

次に、誤字の可能性がある個所を挙げます:

1. "勤務時開" - これは "勤務時間" の誤字である可能性が高いです。

2. "デザリング" - これは "テザリング" の誤字である可能性が高いです。

3. "おねぎあします" - これは "おねがいします" の誤字である可能性が高いです。

テキストを自然な表現に補完されると困るユースケースでは OCR (画像中のテキスト情報を抽出するツール全般のこと) でテキストデータに変換して入力しましょう。

 

結果発表

テストの最終結果は以下のようになりました。

# 質問 ChatGPT Gemini Claude
1-1 グラフには何のメトリクスが表示されていますか? 3 3 3
1-1 障害発生時の各メトリクスを通常時と比較してください。 1 1 2
1-2 障害の原因を特定するために何時のログを確認しますか? 4 2 2
2-1 表内の各記号の意味は何ですか? 1 3 3
2-2 BHHOが「普通」と評価された項目を全て答えてください。 2 0 2
2-2 処理速度とドキュメントの充実度を最重視する場合、選定すべきサービス2つを答えてください。 0 2 4
3-1 AI/機械学習に強いメンバTop3を答えてください。 2 2 2
3-2 植田さんのネットワーク、アプリケーション、マネジメントのスコアは何点ですか? 1 1 2
3-3 開発メンバの中で最もインフラ技術全般に詳しいのは誰だと推察できますか?まず思考過程を出力し、結論を出してください。 2 2 4
4-1 貴社体制におけるPM配下の部門を全て答えよ。 3 3 3
4-2 輸送システム開発-アプリ部門のメンバを全て答えてください。 3 3 3
4-3 今月アカウントを申請する必要があるメンバは誰ですか? 3 0 0
5-1 グラフの色はそれぞれ何の割合を示していますか? 3 3 3
5-2 テストOKケースの割合が最も高いシステムはどれですか? 3 0 3
5-3 品質が最も低いシステムはどれだと推測できますか?段階的に思考してください。 2 0 4
6-1 未スキャンあり、未スキャンなし、入荷予定変更の分岐直後に実行される処理をそれぞれ答えてください。 1 2 1
6-2 確定処理でエラーが発生した場合のみ実行されうる処理を全て答えてください。 0 0 2
6-3 入荷処理フローでエラーが発生しなかった場合に実行される処理を全て答えてください。 3 2 4
7-1 2024年3月における実績工数の数値を読み取ってください。 2 3 3
7-2 2024年の累積工数を答えてください。 3 3 3
7-3 月別工数が最も減少したのは何月ですか?工数はどの程度減少しましたか? 2 0 4
8-1 注文マスタのタスクを担当しているのは誰ですか? 3 3 3
8-2 現在作業中のタスクを全て答えてください。 3 3 3
8-3 本日時点で予定より完了が遅延しているタスクはどれですか?進捗率に注意して段階的に思考してください。 2 2 2
9-1 Top画面のキャッチコピーには何と書かれていますか? 3 3 3
9-2 Top画面にはどんな種類のコンポーネントがありますか?全て挙げてください。 3 3 3
9-3 この会社の郵便番号と住所を答えてください。 2 4 2
10 画像中に含まれるテキストをそのまま出力してください。次に、誤字の可能性がある個所を全て挙げてください。 6 6 6
合計 -- 66 59 79

上記の結果を表にまとめると以下のようになります。
※◎は 10~9 点、〇は 8~7 点、△は 6~5 点、× は 4~0 点に対応しています
マルチモーダル検証ネタ.jpg

こうして定量的に比較すると、全体的に Claude が頭一つ抜けていることが分かります。
 
現在 Claude の裏側では Claude 3.5 Sonnet という中位モデルが動いていますが、既に日本語の画像を扱う能力に関しては ChatGPT や Gemini を圧倒しているようです。Claude の上位モデルである Opus が今後 3.5 として搭載されると更に精度が上がりそうですね。

当然、OpenAI や Google も負けじと各社の最高モデルを改善し続けるはずなので、他の生成 AI も含め今後の競争から目が離せません。

なお、階層図の問題では ChatGPT、画像/レイアウトの問題では Gemini がそれぞれリードしているように見えますが、これらはどちらも扱える文字サイズの差に起因していたため、グラフタイプそのものが Claude の苦手分野だったわけではない点に注意が必要です。

おわりに

本記事では三大生成 AI である ChatGPT、Gemini、Claude のマルチモーダルな能力を幅広くテストし、結果を比較しました。今回検証した範囲では Claude が総合的に勝っていましたが、画像の形式や構成によっては結果が変わる可能性も充分あります。本記事の結果を鵜呑みにせず、是非ご自身でも様々なデータで検証してみてください。

従来の AI 技術とは異なり、生成 AI は専門知識が無い人でも気軽に扱える強力な技術です。だからこそ、これまで AI と無関係だった人も常にキャッチアップし続けなければならない技術だと強く思います。本記事で一人でも生成 AI に関心を持つ人が増えれば幸いです。

これからも AWS や AI をはじめとした技術情報を初学者に分かりやすく発信できるように精進しますので、引き続きよろしくお願いします。まだフォローされていない方は是非 Twitter の方もよろしくお願いします!

最後まで読んでいただき、ありがとうございました。

123
97
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
123
97