ChatGPTはGPT-3.5をベースに、人を介した強化学習で追加学習しいて、性能的には上ですが、
以下の目的でChatGPTとGPT-3.5で回答の質の差がどれだけあるか調べてみました。
- チャットのように連続した会話ではなく、単発の要約タスクやQ&Aといった基本的なタスクならChatGPTとGPT-3.5で大差ないのでは?
- であれば、APIがまだ公開されていないChatGPTではなく、公開されているGPT-3.5が使える。
- また、ChatGPTがこの先APIが公開されても値段や混雑を考えると、GPT-3.5で十分なら積極的にGPT-3.5を採用したい
両方ともにOpenAIのモデルです。
今回の検証ではGPT-3.5ではDavinci(text-davinci-003)というモデルを利用しています。
GPT-3の各モデルと料金については最後のほうに記載していますので興味がれば見てください。
以下、ChatGPTとGPT-3.5の比較です(2023/02/20時点)
種類 | API | 料金 | 特徴 |
---|---|---|---|
ChatGPT | 近日公開予定 | アプリ利用は無料 | GPT-3.5をベースにチャット用に改良 |
GPT-3.5(Davinci) | 公開中 | API/アプリ利用ともに有料 |
要約タスク
イーロンマスクのWiki情報の一部を要約してもらいます。
以下の文章を要約して。イーロン・リーヴ・マスク(Elon Reeve Musk, 1971年6月28日 - )は、南アフリカ共和国のプレトリア出身[4]の南アフリカ共和国、カナダ、アメリカ合衆国の起業家、エンジニア。1989年に17歳でカナダに移住し、2002年にアメリカ合衆国の市民権を取得[4]。PayPal[注 1]、スペースX、テスラ[注 2]、ボーリング・カンパニー(英語版)、OpenAIなど6社を共同設立し[5]、スペースX、テスラ、そしてTwitterのCEOを務めている[6]。
新たな決済サービスを作り出したほか、電気自動車、宇宙開発、太陽光発電などのビジネスで成功を収め、当時没落していたそれらの業界を再興させた[7][8]。Facebook初期投資家でもあるピーター・ティールやYouTube創業者のチャド・ハーリーなどと共にペイパルマフィアの一人としても語られる[9][10]。2012年にはスペースXが国際宇宙ステーションに宇宙船を打ち上げ、テスラはEV 「モデルS」 を発売した。これによってマスクは宇宙と自動車というまったく別の業界で偉業を成し遂げ、スティーブ・ジョブズに例えられる存在になった[11]。
ChatGPT
イーロン・マスクは、南アフリカ出身で、カナダ、アメリカ合衆国の起業家、エンジニアである。
彼はPayPal、スペースX、テスラ、ボーリング・カンパニー、OpenAIなど6つの企業を共同設立し、
スペースX、テスラ、そしてTwitterのCEOを務めている。彼は新たな決済サービスを作り出し、
電気自動車、宇宙開発、太陽光発電などのビジネスで成功を収め、
当時没落していたそれらの業界を再興させた。
2012年にはスペースXが国際宇宙ステーションに宇宙船を打ち上げ、テスラはEV 「モデルS」を発売した。
これによってマスクは、スティーブ・ジョブズに例えられる存在になった。
GPT-3.5
イーロン・リーヴ・マスクは南アフリカ出身で、カナダとアメリカ合衆国で起業家、エンジニアとして活躍している。
PayPalなど6社を共同設立し、スペースX、テスラのCEOを務めている。
決済サービスや電気自動車、宇宙開発、太陽光発電などのビジネスに成功し、これらの業界を再興させた。
ステイブ・ジョブズに例えられる存在となり、スペースXが国際宇宙ステーションに宇宙船を打ち上げ、テスラがEV「モデルS」を発売した。
要約の内容は異なりますが、どちらも質には差がないようです
Q&Aタスク
質問
美味しいケーキの作り方を教えて
ChatGPT
はい、美味しいケーキの作り方をご説明いたします。今回はシンプルなバニラスポンジケーキを例に挙げて説明します。
【材料】
・薄力粉 200g
・砂糖 200g
・卵 4個
・無塩バター 150g
・牛乳 大さじ4
・ベーキングパウダー 小さじ2
・バニラエッセンス 小さじ2
【作り方】
オーブンを180℃に予熱しておく。
ボウルに、薄力粉とベーキングパウダーを入れて、よく混ぜ合わせる。
別のボウルに、室温に戻した無塩バターを入れ、電動ミキサーでクリーム状にする。
砂糖を加え、さらにミキサーで混ぜる。
卵を1つずつ加え、よく混ぜる。
薄力粉とベーキングパウダーのボウルに、3回に分けて加え、ゴムベラで混ぜる。
牛乳とバニラエッセンスを加え、よく混ぜる。
ケーキ型にバターを塗り、薄力粉をふるう。
生地を型に流し入れ、表面を平らにならす。
オーブンで約40分間焼く。
焼き上がったら、型から外して冷ます。
好みでイチゴやクリームなどをトッピングして完成です。
以上が、シンプルなバニラスポンジケーキの作り方になります。焼き時間はオーブンの種類や大きさによって異なる場合がありますので、焦げやすくなる場合は焼き時間を短く調整してください。また、材料の量は2〜3人分ですので、人数に合わせて増やしてください。
GPT-3.5
1. 作りたいケーキの種類を決める。
2. レシピを探して、必要な食材を用意する。
3. 作りたいケーキの種類によって必要な器具を用意する。
4. 全ての食材を混ぜ合わせる。
5. 型に入れてオーブンに入れ、指定の温度で焼く。
6. 完成したら冷ましてから容器に入れる。
7. アイシングする場合は、アイシング用の材料を用意してからケーキの表面を均一になるまで塗り上げる。
8. 完成したら、スプーンで一口大に切って召し上がれ!
「必要な食材を用意する」などChatGPTと比べてざっくりした説明(笑)
文字制限の影響と思い、先のGPT-3.5の出力文字制限を1000文字から2000文字に変更します。
1.バター200グラム、砂糖200グラムを泡立て器で混ぜ合わせる
2.卵4個を加え、よく混ぜ合わせる
3.小麦粉200グラムを加え、混ぜあわせる
4.全卵1個を加え、よく混ぜ合わせる
5.ベーキングパウダー小さじ1杯を加え、よく混ぜ合わせる
6.オーブンを170度に予熱する
7.(6)の材料をオーブン型などに流し入れ、オーブンで30分焼く
8.焼きあがったら、冷まして完成!
少し具体的になりました!
が、これはChatGPTのほうがよさそうですね。
差がついたのでもう一つ質問をためします。
質問
相対性理論について教えてください
ChatGPT
相対性理論は、アルベルト・アインシュタインが提唱した物理学の理論で、時間や空間、重力に関する物理学的現象を記述するための枠組みを提供します。
相対性理論には、特殊相対性理論と一般相対性理論の2つの分野があります。
特殊相対性理論は、光の速度が一定であることを前提に、運動する観測者の時間や空間の見方がどのように変化するかを説明します。この理論では、時間や空間は相対的なものであり、光の速度によって影響を受けます。
一般相対性理論は、物体の質量が空間を曲げ、曲がった空間が物体に対する重力を生み出すという考え方に基づいています。この理論は、重力が物体に働く力ではなく、曲がった空間によるものであることを示し、太陽系の天体の運動や、ブラックホールの存在など、多くの天文現象を説明することができます。
相対性理論は、現代物理学の基礎となる理論の1つであり、GPSなどの高精度計測技術の発展にも重要な役割を果たしています。
GPT-3.5
相対性理論とは、イギリスの物理学者アインシュタインが発表した理論で、物体の運動は、他の物体からみた相対的なものであるという考えを表しています。
相対性理論は、光の伝播速度が宇宙全体で同じであるという光の速度定数を導き出すとともに、重力と引力の関係を説明するとともに、時間と距離の関係性の変化を説明します。
相対性理論は、物理学、天文学、宇宙論など多くの分野で用いられ、物理学を劇的に変えました。
こちらもChatGPTの回答のほうが具体的で、私的にはしっくりくるものでした。
クリエイティブ作成
短い広告文の作成をお願いしてみます。
以下の文章で30文字以内の広告文を5つ作成して。
ドコモ回線で快適につながってたっぷり使える20GB!テザリングや海外ローミング、5分以内の国内通話何回でも無料。
おトクな大容量オプションで100GBにも!"ahamoに乗り換え(MNP)|シンプル1プラン月額2,970円(税込)
eSIM対応 2年縛りなし 解約金なし 事務手数料なし
快適につながる 時間帯の速度制限なし テザリング追加料金なし 通話もあんしん 5分以内の国内通話 何回でも無料
結果は以下の通り
ChatGPT | GPT-3.5 |
---|---|
1. ドコモ回線で快適に!20GBで快適ネットライフ! 2. 海外旅行でも安心!5分以内国内通話何回でも無料! 3. 100GBにも!お得な大容量オプションでさらに快適に! 4. ahamoに乗り換えて、月額2,970円(税込)でおトクに! 5. eSIM対応で手軽に!2年縛りなし、解約金・事務手数料もなし! |
1.ドコモ回線で快適につながろう!ahamoで20GB~100GBまで! 2.ahamoで国内通話5分まで無料!テザリングも追加料金無し! 3.ahamoで2,970円!MNP、2年縛りなし、解約金無し! 4.ahamoなら海外ローミングも安心!時間帯の速度制限なし! 5.ahamoで快適に!国内通話無料、海外ローミング安心、20~100GBまで! |
質的には差がないようです。 ただGPT-3.5はお願いした30文字の制限を超えています。
以上の結果に対してさらに追加で以下も入力してみます
30文字以内のドコモ回線を強調した広告文を5つ作成して。
ChatGPT | GPT-3.5 |
---|---|
ドコモ回線で快適ネットライフ!20GBでさらに快適に! ドコモ回線は安心快適!海外でも5分以内通話無料! ドコモ回線で快適に!100GBでさらにお得に! ドコモ回線なら縛りもなし!ahamoで自由自在! ドコモ回線で手軽に!eSIM対応でスマホも軽くなる! |
1.ドコモ回線で快適!ahamoなら20GB~100GBまで! 2.ahamoで2,970円!5分以内国内通話無料! 3.ドコモ回線で快適!ahamoなら2年縛りなし! 4.ahamoで海外ローミングも安心!時間帯の速度制限なし! 5.ドコモ回線で快適!ahamoなら国内通話無料! |
差がでました。 ChatGPTは入力通りドコモ回線を強調した内容になっています。一方でGPT-3.5は5つ中2つはドコモ回線を強調していない結果でした。内容も「ドコモ回線で快適」と同じで多様な文を生成できていません。
まとめ
以上、サンプル数が少ないですが要約とクリエイティブ作成タスクについてはそこまで差がつかない結果でした。一方でQ&AはChatGPTの方がよかったです。これは人による強化学習の効果がでているのでしょう。
API公開後、料金や混雑に問題なければChatGPTを使ったほうが無難ですが、要約タスクとクリエイティブ作成タスクについてはGPT-3.5も採用の候補に入れてもよさそうです。
(おまけ)GPT-3.5のモデルの種類と価格
モデルは4つ用意されており、右のモデルほど高性能です。課金は入力(Prompt)と出力の両方にされます。今回の比較では一番右のDavinciを試しています。ChatGPTはDavinciよりも高性能になるので値段が気になるところ。
モデルと価格は以下のページに記載されています。
1000tokenあたり750文字と公式で記載されていますが、これは英語の話。
以下のTokenizerで文字を入力すると何token分か確かめることができます。
ただ、私の場合は文字を書くと文字化けし、1文字1tokenになっているような。。Playground上でもtoken数が確認できますが同様にあきらかtoken数が多い。GPT-3.5での日本語のtokenizerは1文字単位に分割される?