はじめに
2023年3月15日未明、OpenAIから GPT-4がリリースされ、Google CloudからはVertexAIの新機能として Generative AIが追加され、Generative AI App Builderのリリースが発表されました!!
奇しくも同日発表となったそれぞれのサービスに関してリリースドキュメントが公開されているので、要点を絞って両方紹介できればと思います
同時にGenerativeAIに関するサービスが発表されるあたり、この業界(この業界に閉じない可能性の方が高いけど)の歴史の分岐点にいる感じしますね
サマリ
(GPT-4)
- GPT-4は多くの学術的ベンチマークで 人間レベル(しかも成績優秀者)の性能を発揮し、既存の機械学習ベンチマークにおいても 他の先端モデルの精度を上回っている
- GPT-4はマルチモーダルなモデルであり、インプットとして画像とテキストを受け取ることが可能となり、画像処理の精度も高水準
(Google Cloud)
- Vertex AIにGenerative AIが加わり、生成系のファンデーションモデル(基盤モデル)をこれまでのMLモデルと同じプラットフォームで扱うことができるになった
- Generative AI App Builderにより、開発者が 限られた専門知識で生成系AIアプリの作成を迅速に開始することができるようになった
GPT-4のリリース内容
参照元のリリースドキュメント
Overview
- GPT-4は大規模なマルチモーダルAIモデルであり、人間よりもタスクの処理能力が劣る場合がある一方で、多くの学術的・専門的ベンチマークで人間レベルの性能を発揮
- 例を挙げると、米国司法試験の模擬試験において、受験者の上位10%程度のスコアで合格(GPT-3.5では下位10%程度のスコアなので飛躍的進化!!)
- さらに、GPT-4は敵対的なテスト(故意に事実と異なる質疑を行うテスト)から学習を重ねることで事実性、操縦性、常識外の発言が改善
- GPT-4のテキスト入力機能はChatGPTとAPIで公開中で、画像入力機能も提供予定
- AIモデルの性能を自動評価するフレームワーク「OpenAI Evals」をオープンソースで公開
性能
どう性能をテストした?
A: 人間が受験するような試験の模擬テストと既存の機械学習ベンチマークの両方
一般に公開されている最新の試験を使用するか、2022-2023年版の模擬試験でモデルの性能を検証が行われたようです
なお、これらの試験のための特別なトレーニングは行わずに検証しているため、モデルのゼロショットなタスク処理性能を評価していると言って良いと思います
性能は改善した?
A: 飛躍的に改善した
GPT-4は人間が受けるようなテストに対しても、既存の機械学習のベンチマーク指標に対しても大きな性能改善が見られる結果となっています(GPT-3.5に対しても、既存の他の最先端モデルに対しても)
検証した試験の一部抜粋↓
模擬試験 | GPT-4 | GPT-4 (no vision) | GPT-3.5 |
---|---|---|---|
Uniform Bar Exam | 上位10% | 上位10% | 下位10% |
LSAT | 上位12% | 上位17% | 下位40% |
USABO Semifinal Exam 2020 | 上位1% | 上位1% | 下位30% |
SAT Math | 上位11% | 上位11% | 上位30% |
この結果を見ても、GPT-4はGPT-3.5(現在デフォルトのChatGPTのモデル)よりも性能面で大きな改善がなされているのがわかります
特に、アメリカのロースクールの入学試験問題であるLSATでは上位10%の成績を残していたり、高校生を対象とした生物学オリンピック(USABO)では 上位1% と破格の成績となっていますね(GPT-3.5が下位30%であることを考えると驚異的な性能改善でしょう)
また、既存のベンチマークでも性能検証が行われており、GPT-4が多くの最先端モデルの性能を大きく凌駕している状況です
例えば、日常的な事象に対する推論精度(HellaSwag)もGPT-3.5が精度85.2%だったのがGPT-4では95.3%と大きな改善が見られています( 恐ろしい点としては、ベンチマークのデータセットを含んだ学習を行っているモデルよりも性能が高いところです。。。 ドメイン知識を学習するとは一体なんなんだろう。。。)
多言語対応
英語以外の言語でも改善したのか?
A: 多くの言語で改善した
26言語中24言語でGPT-4がGPT-3.5や他のLLMの英語での性能を上回っています
これには、学習できるデータソースが乏しい言語であるラトビア語、スワヒリ語なども含まれているので、かなりマイナーな言語ですらGPT-3.5の英語での回答精度を上回っているという衝撃的な状況になっています
ちなみに日本語も正答率79%と改善が見られます
マルチモーダル処理
やれることは増えたか?
A: 検証段階ではあるが、画像もインプットにできるようになった
GPT-4は、新たにテキストと画像のプロンプトをインプットとして、任意の画像・言語タスクを指定することができるようになリました
具体的には、テキストと画像が混在する入力に対して、テキスト出力を生成し、テキストのみの入力と同程度の性能を発揮しているようです
ただし、画像入力はまだ研究段階のプレビューであり、一般には公開されていないとのことなのでAPI登録してα版に触れるようにする必要があります
画像処理タスクの性能は?
A: 複数のベンチマークで最新モデルの性能を上回っている
GPT-4が画像についてもインプットとして扱えるようになった場合に、気になるのはその入力された画像を正しく認識できるかという精度の部分ですが、複数のベンチマークで既存の最新モデルの精度を上回っているようです
関連モデル
ちなみに、先日MicrosoftからVisual ChatGPTが公開されており、インプットはテキストのみですが出力が画像となるマルチモーダルなモデルも出ていたりします
Googleのリリース内容もマルチモーダルなモデルの展開が多く、マルチモーダルな処理が今後の大きなトレンドになりそうな予感がします
振る舞いの制御(操縦性)
インターフェイスは進化したのか?
A: 明示的にシステム的メッセージとユーザーメッセージを分けて応答が出来る様になる
ChatGPTではこれまで、ユーザーのメッセージとシステム的なメッセージ(出力するコードや文体、スタイルなど)を分けずに扱っていましたが、GPT-4ではそのシステム的挙動を制御する「システムメッセージ」を扱えるようになるようです
これまでTwitterなどで報告されていた脱獄プロンプトの多くはこのシステムメッセージによるものだったようですがこれを切り分けることで脱獄行為の対策がされていくのかもしれません
インターフェイスイメージ
このようにシステムを入力するインターフェイスとユーザーの質問を入力するインターフェイスに分かれていくようです
システム:あなたは機械学習の専門家です。回答時には専門用語の解説と具体的なPythonコードを付記して回答して下さい
ユーザー:回帰の問題における評価指標について主要なものを教えてください
GPT-4:回帰モデルの評価指標には、以下のようなものがあります。
平均二乗誤差(Mean Squared Error, MSE)
....
制限事項
完全に信頼できるのか?
A: 完全な信頼性はまだ無く、利用方法には留意する点が複数ある
GPT-4を利用する際は、いまだに完全な信頼性がないことやコンテキストの強い文脈では細心の注意を払う必要があることを認識しておきましょう
とはいえ、TruthfulQAのように故意に発せられる不正確な発言から事実を分離するモデルの能力をテストした場合にはGPT-3.5と比較しても10%近い改善が見られています(ただし、精度を高めるには人間のフィードバックを元にした学習(RLHF)が必要で、それがなければフィードバックを学習したGPT-3.5よりも精度は低い)
また、GPT-4は、2021年9月以降に起こった出来事に関する知識が不足しており、その経験から学習することができない制約もあります
また、多くの領域で人間から見たら馬鹿げている単純な推論ミスや虚偽の発言の受け入れをすることもありえる状態なので利用にはまだ細心の注意を払う必要があるようです
実際にGPT-4とChatGPT(GPT-3.5)を比較して信頼性を検証してみる
次の質問を3つのGPTモデルで比較してみて、信頼性が向上しているか実際に確認してみます
ChatGPT(Legacy):無料版で解放されているGPT-3.5
ChatGPT(Default):Plus版で解放されているGPT-3.5
GPT-4:発表されたGPT-4
投げかける質問↓
Q: ヤンステーンの兄弟構成を教えてください
*ヤン・ステーン(Jan Steen)はオランダの画家であり、私がアイコンとして借用している人物
ちなみに正解は私も知りません、調べた限り「不明」というのが正解と言えそうです
ChatGPT(Legacy)の回答
うーむ、そもそもヤン・ステーン自体を知らないのか
ChatGPT(Default)の回答
ガッツリ嘘ついてますね。2番目ののアンナはゴッホの母です。
GPT-4の回答
おぉ、ちゃんと分からないと返答している!!偉い!!父親と母親も合ってる。。。(というか初めて知った)
凄い!!!
ということで、簡単な検証ながらGPT-4は信頼性を増していることが分かりました
利用リスクと改善取り組み
有害な出力は減ってきているのか?
A: 確実に減少してきているが、まだ改善が必要
GPT-4は、トレーニング前データの選択とフィルタリングや評価と専門家の関与、モデルの安全性向上、監視と実施など、さまざまな措置を取ることで、リスクを軽減を行っており、GPT-3.5と比較すれば、有害な回答をする可能性も減少してきています
例えば、GPT-4は許可されていないコンテンツのリクエストに対する応答が 82%減少し、回答のリスクが高いコンテンツ(自傷行為や医療行為)のリクエストに対する応答はOpenAIのポリシーに従って 29%向上しているようです
学習プロセス、Evals,API
GPT-4のリリース内容はこの後学習プロセスやモデル評価フレームワークの説明と続いていきますが、やや専門的な内容になるのでここでは箇条書き程度の記載としています
- GPT-4も基本的なモデルはこれまでのGPTモデルと同様に一般に公開されているデータから学習しているが、人間の意図に沿うように人間のフィードバックに基づいて(RLHF:Reinforcement Learning from Human Feedback)FineTuningを行っている
- ChatGPTのような質疑のサンプルごとの性能を評価し、パフォーマンスを追跡するためのフレームワークであるOpenAI Evalsをオープンソース化した
- GPT-4 APIにアクセスするにはWaiting Listへの登録が必要(2023/3/15時点)
まとめ(GPT-4)
- GPT-4は人間が受けるような模擬試験でのテストでも、既存の機械学習ベンチマークでもGPT-3.5と比較して大きな改善を達成
- GPT-4はマルチモーダルなモデルであり、インプットとして画像とテキストを受け取ることが可能となった
ここからはGoogle Cloudのリリース内容について触れていきます
Google Cloudのリリース内容
参照元のリリースドキュメント
Youtubeのデモ動画
OverView
- Google Cloudは、 VertexAIにGenerativeAIの機能を追加と GenerativeAI App Builderのリリースを発表し、開発者が生成系AIのアプリケーションを簡単に構築できる新世代ツールを提供
- Vertex AIにGenerative AIがサポートされたことでユーザーがPaLMのようなGoogleの最新のファンデーションモデルを選択でき、ファンデーションモデルをビジネスに容易に組み込める環境が整った
- Generative AI App Builderを用いることで開発者が限られた専門知識で生成系AIを用いたアプリの作成を迅速に開始することが可能になった
- 現在は一部テスターに機能を開放しており早期アクセスのためにはGoogle Cloud Innovatorsへの参加が推奨されている
VertexAIにGenerativeAIが追加
何ができるようになるか?
A: これまでのVertexAIのMLモジュールとGenerativeAIのモジュールを組み合わせた開発が可能になる
Googleが以前より開発を進めていた大規模言語モデルPaLMがPaLM APIを介して簡単にアクセスできるようになり、コンテンツの生成、チャット、要約、分類などの様々なユースケースにクイックに対応できるようになりました
また、PaLMだけではなくGoogleResearchやDeepMindによって開発されたモデルも含まれ、テキスト、画像、ビデオ、コード、オーディオなどのさまざまなデータ形式に対応したファンデーションモデルが用意されているとのことです
そして、これがVertexAI上で展開されることで、(Jupyter)Notebook、API、またはインタラクティブなプロンプトを介して、開発者や我々データサイエンティスト、データエンジニアがGenerativeAIを用いたアプリやカスタマイズされたモデルの構築に今回の機能を反映できるようになります
さらにVertexAIではオープンソースのモデルとサードパーティモデルについても今後サポートしていく予定とのことです
今後、これまでのMLモデルに加えてGenerativeAIのモデルも管理して運用していくということを考えると、セキュリティや保守性の観点で全てのモデルがVertexAI上に展開・管理されているというのは開発者側としてはかなり嬉しい話です
また、Youtubeでのデモを見る限りFineTuningなどもGUIで実行可能になっており、UI/UXについてもかなり気を使っているようです。作成したモデルのデプロイもかなり簡単そうです
余談ですが、先日公開されたPaLM-Eもプロンプトでロボット制御できるマルチモーダルなファンデーションモデルですが、そのうち、こういったものも使えるようになるのかと思うとワクワクしますね
PaLM APIとは何か?
A: GenerativeAIのファウンデーションモデルにアクセスするためのAPI
コンテンツ生成やチャットなどのユースケースに最適化されたモデルや、要約や分類などのユースケースに最適化された汎用モデル(PaLM)へのアクセスがPaLM APIとしてユーザーに提供開始されました
また、このPaLM APIと同時にMakerSuiteという機能もリリースされており、この機能を用いることでプロンプトを反復し、生成したデータでデータセットを拡張し、カスタムモデルを簡単にチューニングすることができるようなります
また、MakerSuiteを使用して、プロンプトをPythonやNode.jsなどの言語やフレームワークのコードに書き出すことができるようです
Generative AI App Builderのリリース
何ができるようになるか?
A: 企業独自のチャットボットやデジタルアシスタントを数時間で構築できる
会話型AIフローを、すぐに使える検索体験や基礎モデルと結びつけるもので、企業が数分から数時間でGenerative AIアプリケーションを構築できるようにします
どのビジネスでも起こりうる資料検索サービスや、製品サポート、製品レコメンとマーケティング商材の作成など、主要なユースケースに対応したファンデーションモデルやテンプレートに直接APIでアクセスできるため、クイックな開発が可能になるとのことです
また、Generative AI App Builderは企業自身のデータを非公開にしたまま、ファウンデーションモデルの機能と自社データと統合でき、データの主権を手放すことなくビジネスへの適用を可能としています
実際のビジネス適用や導入を検討する際、このあたりは非常に重要な観点だと思われます
しかも、この機能で作成されたデジタルアシスタントやチャットボットは顧客に情報を提供するだけでなく、文脈に応じて実際の取引を行うこともできるとしています
具体的なユースケース
ユースケース1: コンテンツ生成の自動化
- 数秒でメール、マーケティングメッセージ、クリエイティブアセットのプロトタイプを作成可能
- マーケティングワークフローをテクノロジーによって強化し、キャンペーン、プログラム、広告などの選択肢を押し広げる(最適なものを選ぶ → 最適なものを生成する)
ユースケース2: 大半の業務タスクに対応するAIアシスタント
- 企業や政府が大量で複雑なデータを要約し、人間のような会話に変換可能
- データアナリストやビジネスユーザーのスキルアップを支援するアプリや、SQLクエリの生成や自然言語クエリによるデータ探索が可能なデジタルアシスタントのようなアプリが開発可能
ユースケース3: 多くのソースにまたがる大規模な内部データセットの検索と理解
- 社内外の様々なデータソースを分析し、関連する結果、正確な要約、クエリのソースを絞り込み、帰属元を確認するためにこのテクノロジーを活用
まとめ(Google Cloud)
- Vertex AIにGenerative AIが加わり、 生成系AIのファンデーションモデル(基盤モデル)の取り扱いが可能になりPaLM APIで容易にアクセス・開発できるようになった
- Generative AI App Builderにより、開発者が 限られた専門知識で生成系AIアプリの作成を迅速に開始することができるようになり、企業や政府の様々なワークフローに対してAIでのアシストが可能になった
参考
おしまい