5
5

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?

NvidiaのLLM:Nemotron-4について

Posted at

最近Nvidiaが自社のLLM「Nemotron-4」を発表しました。Nemotron-4は15BのLLMです。論文によると、このモデルは一般的なタスクにおいて、Gemma 7BやQwen、Mistralといったモデルを上回る性能を示しています。(⇩)

image.png

このモデルは、基本的なTransformerのdecoderアーキテクチャを採用しており、token数は4Kになります。使用された学習データは8Tで、その内訳は英語が70%、多言語が15%、プログラミング関連のデータが15%です。
前処理は、まず重複する内容を削除し、その後LLMを用いてデータクレンジングを行いました。このアプローチはGemmaと非常に似ています。

プレトレーニングは基本的なやり方ですが、継続学習にはGemmaを参考してトレーニングしたようです。トレーニングが完了した後、再学習用データの分布などを調整することで、精度を向上しました。具体的には、最初に8TBのデータを使ってプレトレーニングを行い、その後の継続学習では2つの異なるデータセットを使ってトレーニングを進めました。一つはプレトレーニングに使用されたデータで、高品質なデータの重みを重く設定して再度学習しました。もう一つは、ベンチマーク向けのトレーニングであり、精度評価に関連したデータを用意して、モデルがベンチマークの精度を向上するようにトレーニングしました。
全体的にみると、このモデルはGemmaと非常に似てます。アーキテクチャも似てますし、データクレンジングも似た手法で実施されました。あとは最後の継続学習はベンチマーク向けのトレーニングとなり、ベンチマークのfinetuningみたいな感じです。

最近OSSのLLMが多く公開されていますが、そのアーキテクチャやトレーニング手法、あと性能もほぼ同様で、ほんのわずかにMistralやGemmaを上回る程度であっても、実際の使用において違いはほぼありません。なので、全く異なるアーキテクチャを使用したモデルの公開は楽しみです。

興味ある方:

5
5
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
5
5

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?