はじめに
2024年2月から株式会社Preferred Network(以下、PFN)の子会社である株式会社Preferred Elements(以下、PFE)にて開発されているPLaMoという言語モデルのβ版トライアルAPIの発行が2024年8月9日から順次発行が開始されました1。この記事では、この言語モデルおよび、β版トライアルAPIを利用して作成したデモ用アプリについて簡単にご紹介いたします。アプリについては以下のリンクからお試しいただけます。ただし、β版トライアルAPIの利用自体は期間限定であるため、期間外はご利用いただけなくなります。ご了承ください。
また、作成したソースコードについてはGitHubにて公開しています。興味のある方は以下のリンクからご覧ください。
PLaMo-100Bとは?
PLaMo-100Bは、PFNが2024年2月から開発している大規模言語モデルであり、パラメータの規模としては1000億にも及びます。このモデルの事前学習自体は、5月に完了しており、そして、2024年8月に事後学習も完了し、トライアルAPIの提供が開始される運びとなっています。このモデルの開発自体はなんと、データ収集からモデルの開発まで全てPFN独自に行われております。加えて、性能についても申し分なく、Jasterという日本語性能評価ベンチマークでGPT-4を超え、日本固有の知識を問うRakuda BenchmarkでもGPT-4の性能を超えることが確認されています2。
PLaMo-100Bの開発プロジェクトは、経済産業省が主導する国内の生成AIの開発力を強化するためのプロジェクト「GENIAC(Generative AI Accelerator Challenge)」に採択され、計算資源の提供支援を受けているという背景もあり、日本の生成AIの研究開発をリードする存在として注目されています。
ベンチマークを用いた評価実験
PFNのブログにて公開されている実験を簡易的に紹介いたします。詳しくは、PFNのブログをご覧ください。
以下の表は、Jasterという日本語の言語理解能力を測定するベンチマークを用いた実験結果です。
このように、PLaMo-100B-Instruct(事後学習済みのPLaMo-100B)は全体的にGPT-4モデルを上回る性能を示しています。ただし、MR (Mathematical Reasoning) カテゴリのデータに対しては、GPT-4モデルを大きく下回る性能となってしまっているようです。
2024年10月15日追記:数学推論タスクの精度向上に関する検討がなされているようです3。直接的にPLaMo-100Bの精度向上のための取り組みではないようですが、今後の性能向上に期待が持てる結果となっています。
また、過去にPFNが開発していた言語モデルであるPLaMo-13B4もあるのですが、このモデルとの比較実験の結果が見受けられませんでした。どの程度性能が向上しているのかどうか確認してみたいところです。加えて、表中のGPT-4はGPT-4oを指しているのかどうかに関する言及も見つけることができませんでいた。2024年8月現在、最新手法といえば、Gemini-1.5-Proをはじめとして、GPT-4oやClaude 3.5 Sonetなどが挙げられる5と思いますが、どの程度の性能差なのか純粋に気になります。
作成したデモ用アプリについて
リンクを踏んでいただきますと、以下のようなアプリが表示されます。アプリの開発自体は、PythonのStreamlitというライブラリを使用しています。
アプリの全体像
機能としては以下に記すような非常に簡易的なもののみとなっています。
- 入力としては、システムメッセージおよびユーザーメッセージを入力できます。
- システムメッセージとは、チャットボット側に役割を与えることが可能です。
- そして、メッセージの履歴については一時的に保持されるようになっており、それをCSV形式でエクスポートすることも可能です。
メッセージの履歴については以下のように表示されます。画像中の「会話の履歴をCSVでエクスポート」ボタンを押すことで、CSV形式でエクスポートすることが可能です。
まとめ
PLaMo-100BというPFNが開発した大規模言語モデルについての簡単な説明および評価実験の確認を行いました。日本発祥の強力な言語モデルが生まれたことは非常に喜ばしく、今後の展望が非常に興味深いです。また、PLaMo-100Bのβ版トライアルAPIを利用して、デモ用アプリを作成しました。しかし、まだまだ開発途中ではありますので、今後のアップデートをお待ちください。また、このデモ用アプリについてのフィードバックや要望があれば、ぜひお知らせください。