0
0

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?

More than 1 year has passed since last update.

Llama2の15倍速いDeciLMが登場!

Posted at

はじめに

深層学習コミュニティは、大規模言語モデル(LLM)の限界を押し広げ続ける一方で、これらのモデルの計算要件はトレーニングと推論の両方で指数関数的に増加しています。

今回は、オープンソースのLLMであるDeciLM 6Bを紹介します。DeciLM 6Bは57億のパラメータを持ち、Llama 2 7Bと比較可能な品質を維持しつつ、スループットが15倍高速です。

image.png

DeciLMの概要

開発元:Deci
モデルタイプ:DeciLMは、最適化されたトランスフォーマーデコーダーアーキテクチャを使用した自己回帰型言語モデルで、可変のGrouped-Query Attentionを含んでいます。
言語(自然言語処理):英語
ライセンス:ホスティングサービスプロバイダーに関するDeciの拡張を含むLlama 2コミュニティライセンス契約。

モデルのバージョン:

  1. DeciLM 6B(ベース)

  1. DeciLM 6B-Instruct
    「DeciLM 6B」から指示に従うためにFine-tuned(微調整)されたものです

特徴

DeciLM 6Bの特徴は、効率的なフロンティアを拡張するためにDeciの最先端のニューラルアーキテクチャサーチエンジンであるAutoNACを使用して生成された独自のアーキテクチャにあります。さらに、DeciLM 6BをDeciの推論SDKと組み合わせることで、大幅なスループット向上が実現します。

Grouped-Query Attention(GQA)

MQAはモデルの計算およびメモリ効率を向上させますが、モデル品質の劣化をもたらすことがあります。GQAは、MQAの向上版として導入され、メモリと計算効率、モデル品質の優れたバランスを提供するように設計されました。

  • クエリのグルーピング:GQAでは、クエリはグループに分割され、各グループが単一のK(キー)とV(値)の計算を共有します。これにより、一定のパラメータの共有が提供されますが、MQAほどではありません。
  • 特殊なアテンションパターン:各クエリグループに異なるキーと値を与えることで、モデルは入力内のより広範な関係を識別でき、MQAよりも洗練されたアテンションパターンが生まれます。

image.png

DeciLMにおける可変なGrouped-Query Attention

DeciLMでは、効率とモデル品質のトレードオフをさらに最適化するために、可変なGQA(Grouped-Query Attention)を導入します。他のモデル(例:Llama 2 70B)がすべてのレイヤーで一貫して同じ数のグループを適用するのとは異なり、DeciLMはそのアプローチに変動性を導入します。具体的には、各レイヤーで32のクエリ/ヘッドを維持しながら、DeciLMのレイヤーはGQAグループのパラメータにバラエティを持たせます:

  • 一部のレイヤーでは、4つのグループを使用し、グループごとに8つのクエリとレイヤーごとに4つのK(キー)と4つのV(値)ヘッドがあります。
  • 他のレイヤーでは、2つのグループを適用し、グループごとに16のクエリとレイヤーごとに2つのKと2つのVパラメータがあります。
  • 特定のレイヤーでは、1つのグループを持ち(MQAと同様)、そのグループ内に32のすべてのクエリと1つのキーと値ヘッドがあります。

image.png

モデル評価

DeciLMが同僚モデルの中で際立つ指標

DeciLM 6BおよびDeciLM 6B-Instructを、Llama 2 7B、Llama 2 7B-Chat、Falcon 7B、およびMPT-Instructなど、7億のパラメータクラスの主要なオープンソースモデルと比較しました。パラメータ数がはるかに少ないにも関わらず、DeciLM 6B-Instructは、Llama 2 7Bにほんの1%未満の差で追随し、3番目の位置を獲得しました。

image.png

まとめ

DeciLM 6Bは57億のパラメータを持つオープンソースの言語モデルで、Llama 2 7Bと比較してスループットが15倍向上し、品質を維持しています。AutoNACを使用して生成された独自の可変Grouped-Query Attention(GQA)アーキテクチャは、他のモデルと一線を画しています。7億のパラメータクラスの同僚モデルとのベンチマークでは、DeciLM 6B-Instructが3番目の位置を確保し、その優れた性能を示しました。


参照:

0
0
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
0
0

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?