5
1

Chat GPT-4o miniとClaude 3 Haikuを簡単比較

Last updated at Posted at 2024-07-19

はじめに

現在運営している学習アプリ 「コンウォーク」 では、問題を入力したら回答を自動生成する機能があり、そこではClaude 3 Haikuを利用していました。

ただ今回発表されたGPT-4o miniもClaude 3 Haikuと同じように、非常にコスパが高そうなので、実際に簡単な比較を行ってみることにしました。

本記事では、APIの詳細な使い方は解説致しません

料金

気になる方も多いと思うので、まず料金について触れておきます。

モデル インプット* アウトプット*
GPT-4o mini $0.15 $0.60
Claude 3 Haiku $0.25 $1.25
(参考)gpt-4o $5.00 $15.00

*100万トークンあたり

Claude 3 Haikuもかなり低コストですが、GPT-4o-miniはその半額近い料金ですね。

性能

続いて性能の比較です。こちらにてOpenAIが発表している資料を参考にするのを中心に、個人的な印象についても話します。

まず、OpenAI発表の資料によるモデルの比較にて気になった点を抜粋しながら紹介します。

1. MMLU

モデル スコア
GPT-4o mini 82.0
Claude 3 Haiku 73.8
(参考)GPT-4o 88.7

MMLUは、モデルの総合的な性能評価に多く用いられる指標ですが、GPT-4oが最も高い性能をしています。
ただ、GPT-4o miniもClaude 3 Haikuに8ポイント近く差をつけており、性能の高さが伺えます。

2. GPQA

モデル スコア
GPT-4o mini 40.2
Claude 3 Haiku 35.7
(参考)GPT-4o 53.6

GPQAは、大学院レベルの専門的な知識、高度な推論能力を評価するための指標ですが、こちらもMMLUと同じような結果になっています。

3. MATH

モデル スコア
GPT-4o mini 70.2
Claude 3 Haiku 40.9
(参考)GPT-4o 76.6

MATHは、小学生から大学生程度の算数問題によってモデルを測る指標ですが、GPT-4o miniが30ポイント近くの差をつけて、Claude 3 Haikuを上回っているのが特徴的です。

4. HumanEval

モデル スコア
GPT-4o mini 87.2
Claude 3 Haiku 75.9
(参考)GPT-4o 90.2

HumanEvalは主にプログラミング能力を測る指標ですが、GPT-4o miniはGPT-4oと大きく変わらないほどの性能を持ち、Claude 3 Haikuには10ポイント以上の差をつけています。

その他

他にも紹介されている指標がありましたが、GPT-4o miniがClaude 3 Haikuに優れている点が多いようでした。

個人的な印象

両方のAPIを使用してみたところ、総じてGPT-4o miniが正確な回答を行ったというのが印象です。

運営しているアプリの性質上、一問一答形式の問題をいくつか試したので少し紹介します。

(問題)初代内閣総理大臣は?

モデル 回答
GPT-4o mini 伊藤博文
Claude 3 Haiku 大久保利通
(参考)GPT-4o 伊藤博文

(問題)生類憐みの令を行った将軍は?

モデル 回答
GPT-4o mini 徳川綱吉
Claude 3 Haiku 徳川秀忠、など安定しない回答
(参考)GPT-4o 徳川綱吉

まだ少ない例ですが、今の所Claude 3 Haikuが正解したにも関わらず、GPT-4o miniが誤った回答をしたことはありません。

おわりに

実際に発表している資料からもわかるように、やはりGPT-4o miniの性能が高く、料金も踏まえると、かなりコスパの高い言語モデルが発表されたと思います。

速度の面については考慮しきれていないので、この点も比較したいですね。

最後に、結局GPT-4o miniの凄さをまとめるだけの記事になってしまいましたが、読んでいただきありがとうございました!

参考になると嬉しいです。

宣伝

記事内でも何度か触れましたが、コンウォークという学習アプリを運営しています!
生成AIも活用して、オリジナル学習セットをサクサク作れるようになってるので、よかったら使ってみてください!

5
1
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
5
1